基于时间卷积神经网络和双尺...特征选择的混合碳价预测模型

资源描述

1、第第 39 卷卷第第 4 期期电电力力科科学学与与工工程程 Vol.39,No.4 2023 年年 4 月月 Electric Power Science and Engineering Apr.2023 doi:10.3969/j.ISSN.1672-0792.2023.04.005 基于时间卷积神经网络和双尺度特征选择的混合碳价预测模型周建国，韦斯悌（华北电力大学经济管理系，河北保定 071003）摘要：针对传统碳价格预测模型存在的过拟合和无法有效提取相关特征的问题，提出了一种混合预测模型。首先，通过改进的完全自适应噪声集成经验模态分解算法对原始序列进行分解，以降

2、低数据的波动性和复杂性；然后，用模糊熵对剩余子序列进行重构；此后，利用偏自相关函数和随机森林对子序列进行双尺度特征选择，确定最佳输入维度，以减少不相关特征的输入；最后，通过时间卷积网络进行预测。实验结果表明，与对比模型相比，所提出的模型具有优越性和鲁棒性。该研究结果可为碳市场发展和减排路径相关研究提供有意义的参考。关键词：碳价格预测；双尺度特征选择；序列重构；时间卷积神经网络中图分类号：TK-9 文献标识码：A 文章编号：1672-0792(2023)04-0041-09 Hybrid Carbon Price Prediction Model Based on Time Convoluti

3、on Neural Network and Double-scale Feature Selection ZHOU Jianguo,WEI Siti(Department of Economics and Management,North China Electric Power University,Baoding 071003,China)Abstract:Aiming at the problems of over-fitting and inability to extract relevant features of traditional carbon price predicti

4、on models,a hybrid prediction model was proposed.Firstly,the original sequence is decomposed by the improved fully adaptive noise ensemble empirical mode decomposition algorithm to reduce the volatility and complexity of data.Then,the remaining subsequences are reconstructed by fuzzy entropy.After t

5、hat,partial autocorrelation function and random forest are used to select two-scale features of subsequences,and the best input dimension is determined to reduce the input of irrelevant features.Finally,the prediction is made by time convolution network.The experimental results show that the propose

6、d model is superior and robust compared with the comparison model.The research results can provide meaningful reference for relevant researches of carbon market development and emission reduction path.Key words:carbon price forecast;double-scale feature selection;sequence reconstruction;time convolu

7、tion neural network 42 电电力力科科学学与与工工程程 2023 年 0 引言准确的碳价格预测是增强企业减排积极性、进一步推进碳交易市场建设的基础；其不仅有助于决策者根据价格变化重塑相关政策，也有助于绿色投资者对冲风险、保全碳资产的价值。碳价格预测方法，大致可分为统计方法和人工智能方法 2 大类。统计方法，包括广义自回归条件异方差模型1、自回归综合移动平均模型等2，被广泛应用于碳价格预测。然而，对于碳价格数据序列表现出的高度非线性和不稳定性，传统的统计模型在处理时存在困难。基于机器学习的数据驱动模型因其具有良好的自学习和映射能力，而逐渐被开发用于碳价格预测。文

8、献3利用反向传播神经网络预测了我国深圳的每周碳价格。实验结果表明，该模型的预测精度比其他基准模型高 30%40%。文献4提出了基于极限学习机的碳排放价格预测模型，发现该模型在面对不同频率的样本数据时表现出更好的鲁棒性。尽管上述研究对碳价格预测具有实际意义，但单一人工智能模型在预测具有高噪声和非线性的碳价格序列时仍然面临挑战。为了进一步克服不规则碳价格序列给预测带来的困难，集成不同算法预测能力的混合模型被提出。混合预测模型主要包括：数据分解技术，如经验模态分解（Empirical mode decomposition，EMD）5，小波包变换6，变分模态分解7；优化算法，如粒子群优化算法8和鲸优化

9、算法9。一方面，数据预处理可以有效地减轻数据噪声、提取关键特征，使预测模型更容易学习；另一方面，仿生优化算法的运用进一步增强了模型的泛化能力，使其性能更加稳定。文献10使用互补集成经验模式分解和长短期记忆网络，对我国 8 个试点碳交易市场的碳价格进行了预测。研究证明，该模型在预测碳价格方面具有很强的稳定性和适用性。文献11提出了预测我国碳价格数据的混合模型：利用极值点对称模式分解对原始碳价格序列进行分解，再将所有子序列通过由灰狼优化算法改进的极值学习机进行预测。实验结果表明，所提出的混合模型是预测碳价格的有力工具。此外，在机器学习过程中，训练时间随着特征空间维数的增加而增加。不断增加的维度会导

10、致“维度诅咒”问题12。事实上，输入数据集中的大多数特征是冗余或不相关的特征。这些冗余特征不仅增加了训练时间，而且降低了学习分类器的分类精度。通过特征选择，选择出与预测变量高度相关的最佳输入特征，是开发人工神经网络预测模型的重要环节。文献13研究了特征选择在太阳辐射预测中的作用；结果证明，特征选择方法具有改善预测模型有效性的优越性能。因此，在碳价格预测中应采用特征选择方法，以达到更好的预测效果。本文提出了一种基于分解重构、双尺度特征选择和时间卷积神经网络的混合预测模型。第一步，通过改进的完全自适应噪声集成经验模态分解（Improved complete adaptive noise ensem

11、ble empirical mode，ICEEMDAN）算法将碳价数据分解成若干子序列，同时计算剩余子序列的模糊熵（Fuzzy entropy，FE）并重构模糊熵相近和模糊熵较低的子序列。第二步，引入偏自相关系数（Partial autocorrelation，PACF）对所有子序列计算可能的输入维度，并采用随机森林（Random forest，RF）剔除无关特征，以达到降维的目的。第三步，用得到最佳输入维度的序列应用时间卷积网络（Time convolution network，TCN）进行预测。1 混合预测模型构建 1.1 改进的完全自适应噪声集成经验模态分解 ICEEMDAN 建立在自适

12、应噪声全集经验模式分解（CEEMDAN）的基础上14。具体运算步骤如下。（1）定义：X 为待分解信号，()KF为由 EMD分解产生的 K 阶模态分量，()L 为产生信号的局部均值，为初始的信噪比，()iW为高斯白噪声，R为残差。（2）向原始序列添加白噪声W(i)，构造序列x(i)：()()0()iixxF W=+（1）得到第一组残差：()1()iRL x=（2）（3）计算第 1 模态分量：第 4 期周建国，等：基于时间卷积神经网络和双尺度特征选择的混合碳价预测模型 43 11sxR=-（3）（4）继续添加白噪声。利用局部均值分解计算第 2 组残差11()()iF WR+。定义第 2 个模态

13、分量s2：212111()()isRRRL RF W=-=-+（4）（5）计算第K个残差和模态分量：(1)(1()()KKKiRL RF W-=+（5）1KKKsRR-=-（6）（6）直至计算分解结束，得到所有模态与残差数。1.2 模糊熵利用熵，可以度量 1 个系统或 1 段信息的不确定性。模糊熵描述了一个模糊集的模糊性程度15。具体如下。（1）对于给定的N维时间序列 (1),(2),()xxx N （7）定义相空间维数S(2)SN-和相似容限度y。定义重构空间D(i)：0(),(1),(1)()()x i x ix iSxD ii+-=+-（8）1001()()Sjx ix ijS-=+

14、（9）式中：1,2,1iNS=-+；N为数据长度。（2）引入模糊隶属函数 21,0()exp ln(2)(),0dM dddy=|=-|（10）计算：2exp ln(2)(/),1,2,1;kkijijMpyjNSji=-=-+（11）其中：1,2,00(),()max(|(1)()|(1)()|)kijqSppijx iqx ix jqxj=+-+-DD（12）式中：kijp为窗口向量()iD和()jD之间的最大绝对距离。（3）针对每个i，求其平均值C：11,1()1N Sykiijjj iCsMNS-+=-+（13）（4）定义()Sy：111()()1N SSSiiyCyNS-+=-+（

15、14）（5）原时间序列的模糊熵为：1(,)limln()ln()SSNFE S yyy+=-（15）（6）针对有限数据集，模糊熵估计为：1(,)ln()ln()SSFE S y Nyy+=-（16）基于之前的研究，本文将y设置为原始系列标准偏差的0.2倍。1.3 偏自相关系数（PACF）PACF是描述随机过程结构特征的一种重要参量，常用于计算具有滞后值的时间序列的偏相关。k阶自回归模型如下：1122tttkt ktkkk-=+（17）1.4 随机森林 RF是一种集成机器学习方法。该算法利用随机重采样、bootstrap和节点随机分裂技术构建多个决策树，然后通过投票决定最终的分类结果。除了具有快

16、速学习速率之外，RF还具有很好的鲁棒性，并且可以用于评估复杂交互的分类。对于高维数据，RF的可变显著性度量可以用作特征选择工具。具体实现步骤见文献16。1.5 时间卷积神经网络（TCN）TCN可用于时间序列数据处理17。在卷积网络的基础上，TCN引入了因果卷积、扩展卷积和剩余连接。TCN可以作为递归神经网络（Recurrent neural network，RNN）的替代，可以有效处理时间序列建模中的时间序列预测问题。设输入时间序列为01,txxx，模型的期望输出为01,tyyy。输入01,txxx是历史数据。通过函数F获得从历史数据中推断出新的可能信息，预测值如下：0101(,)(,)ttF xxxyyy=（18）F函数代表了本文提出的展开卷积。虽然因果卷积可以拓宽历史数据的范围，但历史只能在网络深度的线性时间尺度上进行考察。因此，获取长期历史数据极具挑战性。根据文献18，19，使用扩展卷积拓宽接收域，捕捉长期历史信息。扩展卷积定义如下：()*tKdxktkFXf xKk d=-（19）通过改变卷积核的数量k或扩大扩展因子d，可以实现在长期预测中扩大卷积层的视野。因此，选择1个常数

展开阅读全文

基于时间卷积神经网络和双尺...特征选择的混合碳价预测模型_周建国.pdf