最近搞了个大项目。
给基金的中期报告和年度报告做了个语义分析。选了全市场上的,470只股票型基金,从2010年至2020年的基金中报和年报,一共一万多份报告,120多万字。本来想用excel处理数据,结果电脑硬生生给跑宕机了。
后来用了3个工具:
第一个是jieba分词,120万字的素材,分解出来5100多个汉语词汇,“结巴”中文分词,是一个挺好用的中文分词组件,把文字内容拆解成,许多关键词的组合
第二个是pandas,做数据处理
解出来的词汇,数量加总,倒序,再批量删掉那些出现频率很高的“废话”的语气词、标点符号、空话套话,的在了么,等等。
其实这些功能,Excel也能做,就是数据量太大啦,pandas效率会更高。
最后用WordCloud生成词云,字体越大,代表这个词出现频率越多,权重越高。
其实一点儿也不复杂。
先说大的结论吧,在这120万字的基金中报和年报中,出现频率最高的5个关键词是
经济,8283次,
市场,7603次,
投资,4907次,
行业,4764次,
估值,4600次,
这也好理解,股票市场是国家经济的晴雨表,而我们A股市场的气候在它的成长史中,虽然说显得比较情绪化,但大体上是和市场经济发展的脉络同方向的。
近几年的投资者,会越来越关注价格(估值)和赛道(行业),毕竟在一切都用数据说话的投资市场上,没有什么是真正的无价之宝。
如果我们把这些几乎每个报告都会提到的比较“宏大”的关键词删掉,或许可以更直观地看到每个报告,或者说每个时代,真正关心的东西。
同时,我也发现了一些,像我们这样年轻人,并不那么了解的历史情况,
从2010年和2011年的词云中可以看见,2011年的时候,通胀有多严重?
来源:上海期货交易所发展研究中心《上海期货交易所发展研究中心》
2012年开始,曾经上演过的,牛股倍出的创业板大行情。
2012年年报
我们也看到了市场相对风格极端的年份,市场曾经的机会与风险。
从2019年底开始,新冠疫情,和对抗疫情,成为全人类避之不及、但始终挥之不去的主旋律。
而科学技术的战略地位,正在越来越得到资金的关注和认可。
而如果我们拆解掉那些,宏大的词汇,重复的叙事,可能会找到更多,权重不断上升的,不断变化的,代表了新生事物、新的时代的关键词。消费,5G,新能源,以及,一些在更长远的话语体系里,永恒的命题:中国,复苏,增长,机会,长期。
最后,我们还是会建议大家,可以再去仔细地阅读一下基金的定期报告,我们的词频其实更像是把基金经理的市场观点,那些智慧的碎片和片段,拆解,重组,碰撞出一些火花。
其实完整的文字,完整的报告数据,是更加有温度和时代的共振的。那些基金隐藏在水面下的全部持仓,甚至有的基金经理可能定期会买自己的基金,也会体现在报告中。
在中国的资本市场上,赛道宽阔,产业纵深,不断有行业的消亡与新生,交替往复,你会看到,有人笃守信仰,有人改变方向,有人打破常规,有人从深渊走向辉煌。你会看到赛道宽阔,产业纵深,不断有行业的消亡与新生,交替往复,也总有一些痕迹,把这一切记录下来。
注:观点仅供参考,不构成投资建议或承诺。市场有风险,投资需谨慎。