1、新闻情绪数据在中低频Alpha中的应用2022年09月Quantitative Research招商证券研究发展中心招商证券研究发展中心周靖明周靖明S1090519080007“蓝海启航”系列研究之二“蓝海启航”系列研究之二 章节大纲章节大纲2前言应用探讨新闻情绪数据介绍数据相关统计分析总结展望因子构建总结与后续研究展望新闻情绪因子构建新闻情绪因子测试结果新闻情绪因子改进提升新闻情绪在事件驱动策略中的应用融合了新闻情绪因子的选股策略新闻情绪因子对传统因子的改进和提升 nMsRoOoNxPmPtRoQqQnNtO7N8Q8OtRmMtRnPeRpPzQeRmNpR7NqRpMNZrMqRuOnN
2、rO3第一节第一节前言:新闻情绪数据概览前言:新闻情绪数据概览 另类数据另类数据Alpha研究的蓝海研究的蓝海4资料来源:资料来源:招商证券研究与发展中心招商证券研究与发展中心Alpha研究传统Alpha的改进反转因子改进价值因子改进另类Alpha的挖掘电商消费大数据高频数据卫星数据新闻情绪因子择时基于外生变量基于内生变量“青出于蓝”系列报告“青出于蓝”系列报告“蓝海启航”系列报告“蓝海启航”系列报告“因时制宜”系列报告“因时制宜”系列报告 数库新闻情绪数据数库新闻情绪数据模型模型5资料来源:资料来源:ChinaScope,ChinaScope,招商证券研究与发展中心招商证券研究与发展中心 数
3、库新闻情绪数据数库新闻情绪数据数据示例数据示例6stockCodestockCodecompanyIdcompanyIdchineseNamechineseNameenglishNameenglishNamenewsIdnewsIdnewsTsnewsTsrelevancerelevanceemotionIndicatoremotionIndicatoremotionWeightemotionWeightemotionDetailemotionDetailTSLA_NQ_EQCSF0000201106特斯拉Tesla24097266 2020/9/1 0:000.75 1 0.850=0.08
4、21,1=0.8536,2=0.064200700_HK_EQCSF0000000275腾讯控股TENCENT HLD24097278 2020/9/1 0:010.04 1 0.860=0.1362,1=0.8631,2=7.0E-4601577_SH_EQCSF0000002244长沙银行Bank of Changsha24097278 2020/9/1 0:010.83 1 0.880=0.1129,1=0.8759,2=0.0111002230_SZ_EQCSF0000002456科大讯飞Iflytek24097278 2020/9/1 0:010.04 1 0.870=0.1336,
5、1=0.8657,2=7.0E-406198_HK_EQCSF0000003258青岛港Qingdao Port24097281 2020/9/1 0:010.07 0 0.430=0.4268,1=0.384,2=0.1892601298_SH_EQCSF0000003258青岛港Qingdao Port24097281 2020/9/1 0:010.07 0 0.430=0.4268,1=0.384,2=0.189206818_HK_EQCSF0000000443光大银行CEB24097285 2020/9/1 0:010.06 0 0.540=0.5381,1=0.2561,2=0.20
6、58002468_SZ_EQCSF0000000505申通快递STO Express24097304 2020/9/1 0:021.00 2 0.750=0.0761,1=0.1784,2=0.7455资料来源:资料来源:ChinaScope,ChinaScope,招商证券研究与发展中心招商证券研究与发展中心新闻与个股的相关程度,取值为0-1之间新闻分类结果,0为中性,1为负面,2为正面新闻结果所对应的概率三种分类的概率明细 新闻数据统计分析新闻数据统计分析7不同月份所覆盖的不同月份所覆盖的A A股相关新闻总数股相关新闻总数05000010000015000020000025000030000
7、0全A沪深300中证500资料来源:资料来源:ChinaScopeChinaScope,招商证券研究与发展中心,统计区间:,招商证券研究与发展中心,统计区间:2016113020161130-2020093020200930正面正面,14309041430904,39%39%中性中性,16501181650118,44%44%负面负面,647592647592,17%17%三类新闻数量及占比三类新闻数量及占比 新闻情绪数据的覆盖度新闻情绪数据的覆盖度8资料来源:资料来源:ChinaScopeChinaScope,招商证券研究与发展中心,统计区间:,招商证券研究与发展中心,统计区间:201611
8、3020161130-2020093020200930 截至20200930,新闻数据在全A、沪深300和中证500指数中的覆盖股票数目分别为3957、299和500;个股覆盖比例分别为97.92%、99.67%和100%。不同指数成份股中覆盖股票数目不同指数成份股中覆盖股票数目不同指数成份股中覆盖股票占比不同指数成份股中覆盖股票占比0500100015002000250030003500400045000100200300400500600沪深300中证500全A0.00%20.00%40.00%60.00%80.00%100.00%120.00%全A沪深300中证500 个股相关新闻数目与
9、市值关系个股相关新闻数目与市值关系9 我们将个股月平均流通市值的对数月平均流通市值的对数与该月相关新闻总数的对数相关新闻总数的对数进行回归。回归结果表明个股相关的新闻个股相关的新闻数与其市值大小存在显著正向相关性数与其市值大小存在显著正向相关性。0510152025303540455000.10.20.30.40.50.6201611302016123020170126201702282017033120170428201705312017063020170731201708312017092920171031201711302017122920180131201802282018033020
10、1804272018053120180629201807312018083120180928201810312018113020181228201901312019022820190329201904302019053120190628201907312019083020190930201910312019112920191231202001232020022820200331202004302020052920200630202007312020083120200930回归系数与对应的回归系数与对应的t t值值回归系数回归系数t t值(右轴)值(右轴)资料来源:资料来源:ChinaScope
11、ChinaScope,招商证券研究与发展中心,统计区间:,招商证券研究与发展中心,统计区间:2016113020161130-2020093020200930 10第二节第二节新闻情绪因子的构建及延伸新闻情绪因子的构建及延伸 因子构建需要考虑的因素因子构建需要考虑的因素单个新闻情绪得分如何计算?单个新闻情绪得分如何计算?单个新闻得分=单个新闻的正面概率 负面概率过去一段时间内个股新闻情绪如何刻画?过去一段时间内个股新闻情绪如何刻画?对过去一段时间内所有新闻的情绪分求和。是否应该根据相关性对新闻进行过滤?是否应该根据相关性对新闻进行过滤?考虑用相关性对单个新闻的得分进行修正,并剔除相关性小于0.
12、7的新闻。是否应该考虑新闻的时效性?是否应该考虑新闻的时效性?越新的新闻影响越大,我们采取时间衰减法对不同事件得分进行加权求和。是否剔除中性新闻?是否剔除中性新闻?中性新闻同样带来过多噪音,我们对中性新闻进行剔除。11新闻情绪因子构建是否剔除中性新闻?单个新闻的情绪得分如何计算?过去一段时间内的新闻情绪如何刻画?是否应该根据相关性过滤新闻?是否应该考虑新闻的时效性?资料来源:资料来源:招商证券研究与发展中心招商证券研究与发展中心 新闻情绪因子定义新闻情绪因子定义12因子因子定义方式定义方式Avg_ScoreAvg_Score对过去一段时间所有相关新闻的情绪得分求和Avg_Score_RELAv
13、g_Score_REL对过去一段时间所有相关新闻的相关性修正相关性修正情绪得分求和Avg_Score_TAvg_Score_T按照时间衰减的加权方式时间衰减的加权方式,对过去一段时间所有相关新闻的情绪得分求和Avg_Score_REL_TAvg_Score_REL_T按照时间衰减的加权方式时间衰减的加权方式,对过去一段时间所有相关新闻的相关性修正相关性修正情绪得分求和Avg_Score_REL_ExAvg_Score_REL_Ex剔除相关性低于剔除相关性低于0.70.7的新闻的新闻后,对过去一段时间所有相关新闻的相关性修正相关性修正情绪得分求和Avg_Score_REL_T_ExAvg_Sco
14、re_REL_T_Ex剔除相关性低于剔除相关性低于0.70.7的新闻的新闻后,按照时间衰减的加权方式时间衰减的加权方式,对过去一段时间所有相关新闻的相关性修正相关性修正情绪得分求和Avg_Score_NumAvg_Score_Num正负面新闻数目之差占二者总数的比重Avg_Score_Num_ExAvg_Score_Num_Ex剔除相关性低于剔除相关性低于0.70.7的新闻的新闻后,正负面新闻数目之差占二者总数的比重资料来源:资料来源:招商证券研究与发展中心招商证券研究与发展中心 测试结果测试结果回溯回溯20D月度调仓月度调仓IC全体A股沪深300中证50013资料来源:资料来源:WindWi
15、nd,招商证券研究与发展中心,招商证券研究与发展中心因子因子平均值平均值标准差标准差最小值最小值最大值最大值IC_IRIC_IRt t统计量统计量平均股票数平均股票数ICICSqrt(N)Sqrt(N)有效期数有效期数Avg_ScoreAvg_Score2.09%8.65%-18.21%18.48%0.24 1.64 2836 1.1146 Avg_Score_NumAvg_Score_Num1.16%5.64%-13.37%12.30%0.20 1.39 2836 0.6246 Avg_Score_Num_ExAvg_Score_Num_Ex1.08%6.08%-20.42%11.26%0.
16、18 1.21 2472 0.5446 Avg_Score_RELAvg_Score_REL1.75%7.78%-20.88%17.31%0.22 1.52 2836 0.9346 Avg_Score_REL_ExAvg_Score_REL_Ex1.78%8.08%-24.47%19.03%0.22 1.49 2472 0.8846 Avg_Score_REL_TAvg_Score_REL_T1.59%7.59%-20.13%17.68%0.21 1.42 2836 0.8546 Avg_Score_REL_T_ExAvg_Score_REL_T_Ex1.65%7.85%-23.97%18.81%0.21 1.43 2472 0.8246 Avg_Score_TAvg_Score_T1.93%8.43%-18.39%19.04%0.23 1.55 2836 1.0346 因子因子平均值平均值标准差标准差最小值最小值最大值最大值IC_IRIC_IRt t统计量统计量平均股票数平均股票数ICICSqrt(N)Sqrt(N)有效期数有效期数Avg_ScoreAvg_Score3.75%11.