1、078经济论坛基于投资者情绪的元宇宙股票价格预测研究以千方科技为例文/余佳雨“元宇宙”是数字技术的革命,也是数字文明的重要成果,它拥有广阔的发展空间和无限的可能性。文章以千方科技公司股票价格为研究对象,为了能够更加精准和高效地对股票价格进行预测,提出了基于集合经验模态分解和双向长短时记忆神经网络(EEMD-BiLSTM)的股票价格预测模型。以千方科技公司股票价格时间序列数据为数据样本,对其进行集合经验模态分解,分别求得不同时间尺度下所得的固有模态分量(IMF);再对IMF建立BiLSTM股票价格预测模型;最后,对各分量的预测结果进行求和,得出最终预测值,以此对股票价格进行预测。1文献分析金融资
2、产定价一直是金融领域的核心问题,关于这方面,学者们众说纷纭。例如,刘海飞等(2017)发现微博信息质量将改变公司股票波动受到市场平均股票的影响情况1;从股吧论坛上获取信息从而捕捉投资者情绪,继而研究股价与其之间的关系也是研究的方向之一(部慧等(2018)2;吴慧慧(2022)考察投资者情绪截面特征对股票定价的影响,并探究投资者情绪对股票定价的影响机制3;还有学者对上市公司财务报表进行分析,通过了解公司整体的经营状况和财务业绩对公司未来发展进行预测(印辉(2022)4。在大数据时代,自然语言处理技术(NLP)的迅猛发展使量化投资者情绪成为可能。该方面的研究主要分为两类,一是构建情感词典进行情感打
3、分,如顾文涛等(2020)在构建适用于对金融投资领域的财经新闻进行文本分析的新型情感词典的基础上建立了预测模型5。二是运用深度学习的方法进行情感分类,如张洋(2021)在其研究文献中提出融合此特性的双通道复合模型6。对金融资产进行价格预测的方法通常可以分为两种:即线性预测和非线性预测。Yuze等(2021)采用长短期记忆神经网络和变模态分解研究新闻情对石油期货价格的影响7。宫晓莉等(2020)采用支持向量机研究金融行业的风险预警体系,并且论证了预警体系的合理性8。由于股票价格是非平稳的时间序列数据,因此,在最近的研究中,发展了一种新的集成预测方法,即“分解与集成”,以处理不规则和非平稳的时间序
4、列数据预测任务。该方法将原始时间序列数据分解为若干个平稳周期,通过预测模型分别进行估计,最后综合得到预测输出。在所有的分解方法中,经验模态分解(EMD)分类方法是目前经验工作中使用的主要方法。基于以上研究,文章构建了EEMD-BiLSTM 模型与投资者情绪指标的千方科技公司股票价格预测。首先,从千方科技公司股吧中提取定性信息,并对上下文数据进行情感分析。其次,非递归信号分解方法,即应用集合经验模态分解(EEMD)方法,将千方科技公司历史数据信息分解为各种固有模式。与主流的EMD分解方法相比,EEMD插入的白噪声充斥整个时频空间,随着不断地测试,噪声得以被消除,最后留下稳固的信号。最后,引入双向
5、长短期记忆神经网络(BiLSTM)作为深度学习预测模型,将定性和定量模型输入相结合。2数据描述与指数构建2.1研究对象选取和指标的确定文章以2013年1月4日至2021年12月31日期间千方科技公司数据为研究对象。分别收集了两组不同的数据:千方科技公司股票每日收盘价格和公司股吧评论。在公司股票每日079经济论坛收盘价方面,我们采用的是来自国泰安数据库和wind数据库的数据。在股吧评论方面,我们采用的是东方财富股吧上爬取的股吧评论,该股吧是我国股票市场上最具影响力也是用户访问量最大的专业论坛。2.2情绪指数构建文中借鉴欧阳资生等提出的基于股评构建情绪指标的方法,通过网络爬虫技术,收集了千方科技公
6、司自2013年1月4日至2021年12月31日的股评数据。构建情绪指数的整体步骤为:首先,利用python爬取东方财富网上千方科技公司的股评数据;其次,将股评数据中的广告帖、重复内容等噪声信息进行去除,以达到简化精练的目的;再次,将数据分词对数据进行分词处理。最后根据上一步分词得到的分词组合构建每家公司的情绪指数。定义情绪指数度量方法如下:(1)式 中代 表 在 D(t)时 间 内 类 型 为的消息的数量加权之和,Wi代表了情绪的方向,包括pos、neu和neg,这三者分别代表了看涨情绪、中性情绪和看跌情绪;xi则代表的是每条股评的权重信息,该变量由程度副词决定,将公司的每日情绪加总即可得到该
7、公司的日度情绪指数。2.3统计性描述接下来我们对两者进行描述性统计,统计结果如表1所示,我们的数据集包含有2059个交易日的数据,其中90%被用作训练集,剩余的10%为测试集。收盘价和情绪指数都有着较高的偏度和峰度,这意味着它们不服从正态分布。两者ADF检验结果表明收盘价是不平稳的,而情绪指数则在1%置信水平下平稳。3模型构建3.1数据分解在模态混叠现象存在的情况下,模型的分解效果将消失,信号的原始特征也不能被反映出来。因此,本文采用了Wu 和 Huang在EMD方法上改进的EEMD方法。EEMD方法在分解原始信号前,会将一组白噪声插入其中,这可以在一定程度上解决模态混叠问题。EEMD算法的简
8、单流程如下:第一,插入一组白噪声到原始信号中,得到新的混合信号序列。(2)第二,输入混合信号序列,找到的所有极值点。通过三次样条插值将所有的极大值点插值构建上包络线,同理,构建下包络线,然后,求出均值曲线 ,。第 三,用与作 差,得 到 新 的 信 号 序 列。基于以下条件判断是否为IMF分量,如果不是则以代替,重复上述步骤,直到满足条件为止。(1)在新序列中,上下极值点相加后的数目与曲线穿过x轴的数目相等或至多相差一个。(2)在新序列中,上下包络线的均值必须为零。第四,将首个满足条件的赋值为,然后令,对加入新的白噪声之后重复上述步骤,得到第二个分量l2。不断重复上述步骤,直到阈值函数SD处于
9、给定区间范围,停止差分。阈值函数SD表达式如下:(3)其中,k为IMF分量数,t为期数,n为样本容量,取值范围为(0.2,0.3)。第五,重复p次之前的步骤,得到p组不同的IMF分量,记作,其中。第六,对之前得到的进行算术平均。其中加入的白噪声,在算术平均下影响可以忽略不计。最后我们得到IMF分量:表1千方科技收盘价和情绪指数的描述性统计表1千方科技收盘价和情绪指数的描述性统计样本数最小值最大值均值标准误差偏度峰度ADF检验量close20596.4953.718.00677.59131.68556.6562-2.7641sentiment2059-148.5102-3.803017.7713
10、-1.172312.7687-18.2989*,*分别代表在5%水平和在1%水平下显著080经济论坛 (4)混合信号序列可以表示为:(5)其中,r(t)为残差趋势项。3.2深度学习预测模型:EEMD-BiLSTM文中采取了基于长短期记忆神经网络(LSTM)提出的双向长短期记忆神经网络(BiLSTM),它包含两个相反方向运行的隐层,并将他们连接到相同的输出层,使得该模型可以提取时间序列数据中的双向时序关系。双向长短期记忆神经网络(BiLSTM)的结构如图1所示:图1 BiLSTM模型结构图图1 BiLSTM模型结构图图中为输入数据,为后向隐藏层,为前向隐藏层,代表全连接层。文中 BiLSTM 预
11、测模型由五层组成:输入层、前向隐藏层、后向隐藏层、输出层和全连接层。输入数据集首先通过前四层导入到 BiLSTM 模型中,然后通过完全连接层生成时间t+1股票收盘价预测。EEMD-BiLSTM模型结构图如图2所示:图2基于EEMD-BiLSTM模型的元宇宙公司股票价格预测流图2基于EEMD-BiLSTM模型的元宇宙公司股票价格预测流程图程图3.3评价指标为 提 升 预 测 模 型 的 准 确 性,文 章 运 用 均 方 误 差(MSE),均值绝对误差(MAE)和平均绝对百分误差(MAPE)作为预测结果的检验评价标准,其各自表达式如下所示:(6)(7)(8)式中 和,分别代表t时刻的预测值和观测
12、值,n表示测试集中的总数量。4千方科技公司股票价格预测实证结果分析4.1情绪指数对股票价格影响的相关性分析4.1.1变量的非线性检验为考察投资者情绪和元宇宙公司股票价格两者间的非线性Granger因果关系,文章主要采用BDS方法对各变量之间的非线性动态变化趋势存在与否进行检验。由非线性检验的结果可知,在BDS检验方法下绝大多数检验统计量均表现出复杂的非线性动态变化趋势,与非线性Granger因果检验的前提条件相吻合。4.1.2非线性Granger因果检验笔者运用Diks和Panchenko(2006)提出的非参数Tn方法对“股票收盘价和情绪指数”间是否存在非线性因果关系进行检验,从而更加全面地
13、将变量之间的因果关系呈现出来。首先,运用优的VAR模型和GARCH模型估计各变量之间存在的影响关系,进而过滤掉其线性依存关系。然后,采用Granger因果检验方法对残差序列进行非线性检验,采用的带宽参数,得出基于共同滞后阶数(MX=MY=1,7)的检验结果,两个假设的p值均小于0.05,表明这两个假设在0.05的置信水平下拒绝原假设,即:千方科技公司股票收盘价和该公司的情绪指数之间存在双向的格兰杰因果。4.2集合经验模态分解千方科技股票收盘价被分解为9种固有模式,如图3所示。9个固有模式被标记为从m1到m9和一个残差项(未画出),其中m1代表最低频率的模,m9代表最高频率的模。其中,m1-m4
14、具有的突变性强,且频率偏高,具有随机无序081经济论坛性特征;分量m5-m9的数据波动具有明显的周期性和规律性,整体变化区域平稳,但不具备稳定的波动周期。图3千方科技股票收盘价基于EEMD分解后的固有模态图3千方科技股票收盘价基于EEMD分解后的固有模态4.3基于EEMD-BiLSTM模型的元宇宙股票价格预测使用EEMD-BiLSTM模型对未来一天的元宇宙公司股票价格进行预测,实验步骤如图2所示,首先,获取EEMD 分解所得的各个变量,包括IMF分量和残余量RES。其次,运用BiLSTM 模型对各变量进行训练和预测,运用Adam算法对模型参数进行优化和调整。再次,对IMF 分量和残余量RES所
15、得的预测结果进行求和,最终,得到元宇宙公司股票价格预测的结果。为进一步校验本文预测模型的精确性,分别运用SVM模型、RF模型、LSTM 模型、EMD-BiLSTM模型对元宇宙公司股票价格预测进行实验验证。为得出量化指标对模型的预测结果进行详细分析,文中运用MAE、MSE 和MAPE等3个评价指标对所涉及的预测模型进行分析,如表2所示,在融入情绪指数后所得的各个模型的预测统计结果。根据表2所示结果可得,预测精度最好的模型为EEMD-BiLSTM模型,MAE、MSE、MAPE分别为0.0107、0.0002和2.2733,与SVM模型相比,MAE、MSE、MAPE分别降低了66.45%、85%和8
16、4.37%;与模型RF相比,MAE、MSE、MAPE分别降低了2.73%、13.04%和46.78%;与LSTM模型相比,MAE、MSE、MAPE分别降低了98.24%、99.98%和32.88%。总体来看,基于EEMD-BiLSTM的元宇宙股票价格预测模型比其他模型预测精度更高,能更准确地预测元宇宙股票价格变化规律和变化趋势。5结语在实证验证结果分析的基础上,最终得出三点结论:表2各模型预测误差对比表2各模型预测误差对比评价指标模型SVMRFLSTMEEMD-BiLSTMMAE0.03190.0110.60750.0107MSE0.00130.000231.00430.0002MAPE14.54164.27143.38682.2733第一,本文所构建的情绪指数具有明确的经济含义,并且与收盘价之间存在双向格兰杰引致关系,且该关系具有非线性特征;第二,本文采用EEMD方法处理股票收盘价时间序列的非平稳性特征,减小各时间尺度信息间的影响,有利于充分探究原始序列的特性,并提高模型的预测性能;第三,运用BiLSTM神经网络的循环网络结构与门控机制,对各子序列分量进行关联性捕捉,从而较为准确地判