1、2023,59(7)时间序列预测是反映社会经济现象和预测事物发展趋势的重要手段。而非平稳非线性的时间序列由于其序列内部的复杂性,不能简单地使用线性技术来实现。传统的非平稳非线性时间序列的预测主要基于参数进行回归预测1,但是由于缺乏对原始序列的充分探索,使得预测模型的精度不高。近年来,基于人工神经CEEMDAN-HURST算法在新冠疫情预测中的应用王启云,郑中团上海工程技术大学 数理与统计学院,上海 201620摘要:针对COVID-19新增病例是一个非线性非平稳的时间序列,提出基于CEEMDAN-HURST算法的COVID-19组合预测模型。利用自适应噪声完全集合经验模态分解算法将新增病例时间
2、序列分解为频率不同的子序列;利用HURST指数分析各个子序列的随机性并将子序列整合为高频、中频和低频三种子序列,通过最小二乘支持向量机对这三种子序列分别进行预测;叠加各重构子序列的预测结果,得到COVID-19新增病例的最终预测值。结果表明,基于CEEMDAN-HURST算法的COVID-19新增病例组合预测模型提高了非线性时间序列预测过程中的效率以及预测精度。与CEEMDAN-PE组合模型相比,平均绝对误差、均方根误差分别降低了11.13%和29.67%,表明CEEMDAN-HURST算法可有效解决非线性时间序列预测模型普遍存在的预测效率低和预测精度低的问题;赫斯特(HURST)指数度量了时
3、间序列的偏移程度,引入HURST指数进行合并重构整合,可减少时间序列预测所需要的子序列数目。关键词:非线性非平稳时间序列;自适应噪声的完整集合经验模态分解(CEEMDAN);HURST指数;组合预测;COVID-19文献标志码:A中图分类号:TP399doi:10.3778/j.issn.1002-8331.2205-0253Application of CEEMDAN-HURSTAlgorithm in COVID-19 PredictionWANG Qiyun,ZHENG ZhongtuanSchool of Mathematics,Physics and Statistics,Shang
4、hai University of Engineering Science,Shanghai 201620,ChinaAbstract:Considering the new COVID-19 cases are a nonlinear and non-stationary time series,a combined COVID-19prediction model based on CEEMDAN-HURST algorithm is proposed.Firstly,the time series of newly confirmed casesare decomposed into s
5、ub-series with different frequencies using the complete ensemble empirical mode decompositionwith adaptive noise(CEEMDAN)algorithm.Secondly,the randomness of each sub-sequence is analyzed by HURSTindex and the sub-sequence is integrated into three sub-sequences of high frequency,medium frequency and
6、 low frequency.The three sub-sequences are predicted by the least square support vector machine(LSSVM).Finally,the prediction resultsof each reconstructed subsequence are superimposed to obtain the final predicted value of newly confirmed COVID-19cases.The results show that the COVID-19 new case com
7、bination prediction model based on CEEMDAN-HURST algo-rithm improves the efficiency and prediction accuracy in the nonlinear time series prediction process.Compared with theCEEMDAN-PE combined model,the mean absolute error and root mean square error are reduced by 11.13%and 29.67%,respectively,indic
8、ating that the CEEMDAN-HURST algorithm can effectively solve the problems of low prediction effi-ciency and low prediction accuracy commonly existed in nonlinear time series forecasting models.Meanwhile,HURSTindex measures the deviation degree of time series,and the HURST index is introduced to merg
9、e,reconstruct and inte-grate,which can reduce the number of sub-series needed for time series prediction.Key words:nonlinear non-stationary time series;complete ensemble empirical mode decomposition with adaptive noise(CEEMDAN);HURST index;combined prediction;COVID-19基金项目:全国统计科学研究项目(2020LY080)。作者简介:
10、王启云(1998),女,硕士研究生,研究方向为机器学习与疫情预测分析;郑中团(1979),通信作者,男,博士,副教授,研究方向为统计机器学习与数据分析、应用随机过程与复杂网络、可持续发展中的数据挖掘,E-mail:zhongtuan-。收稿日期:2022-05-12修回日期:2022-09-13文章编号:1002-8331(2023)07-0261-08Computer Engineering and Applications计算机工程与应用261Computer Engineering and Applications计算机工程与应用2023,59(7)网络的非线性时间序列预测模型由于其放松
11、了对原始条件的假设而得到更为广泛的应用2。此外,相比于以往的神经网络,最小二乘支持向量机(LSSVM)在处理大量数据时求解迅速并具有良好的泛化能力3。针对时间序列数据非平稳非线性特点,如何将时间序列分解方法与预测模型更好结合是组合模型预测的热点研究方向之一。Huang 等4提出了经验模态分解(EMD),这是一种自适应地分析非线性非平稳数据的分解方法,但EMD方法存在着模态混叠现象,为了解决这个问题,Zhao等5通过对加了白噪声的信号集合进行筛选和处理,提出了一种新的集合经验模态分解(EEMD)方法,但是这种方法的计算成本以及重构误差依然很大。Yeh等6提出了互补集合经验模态分解(CEEMD),
12、这是一种噪声增强数据分析方法的改进算法,通过在原始的信号中加入成对的正负辅助白噪声来提高分解效率并降低重构误差。Torres等7改进了CEEMD方法,提出了自适应噪声的完整集合经验模态分解(CEEMDAN),解决了在集合平均的过程中本征模态函数(IMF)无法对齐的问题,CEEMDAN 方法在心电信号去噪等工程应用方面发挥了较为良好的效果8。这些序列分解方法对时间序列进行分解后,会生成多个子序列。本文将在CEEMDAN分解的基础上,引入赫斯特(HURST)指数对子序列进行合并重构,以期提高模型预测的效率和精度。HURST指数反映了事物的发展变化情况,早期用于水库和河道的流量分析9,后被应用于金融
13、、证券投资、股票市场等的分形分析10-12。龚云等13引入HURST指数用于MEMS陀螺仪去噪模型,使用HURST指数作为模态筛选机制重构信号可进行有效去噪。此外,LSSVM将其损失函数由传统的二次规划函数替换为最小二乘法函数,将最优化问题变成求解线性方程,降低算法复杂程度的同时提高运算效率14,本文将对不同频率子序列建立LSSVM模型进行预测。COVID-19疫情暴发以来,全球许多学者都对这次的疫情进行了预测,预测的研究工作主要集中在传染病动力学模型对疫情的发展进行研究和分析。传统的预测方法都是使用固定的再生数进行估计,没有体现疫情发展的动态变化。近来,Yang等14利用改进的SEIR模型得
14、出新冠肺炎的流行曲线,并使用人工智能方法来预测疫情15。范如国等16基于复杂网络理论,对三种情形下的疫情拐点进行了预测,预测结果与真实情况基本吻合16。严阅等17提出了基于时滞动力学系统的传染病模型,有效地预测了疫情的发展趋势。这些新冠疫情预测模型的预测效果得到了一定程度的提高,但是由于未能充分考虑疫情时间序列的不确定性和非线性,预测模型的预测准确性还需进一步提高。针对这些问题,本文提出了基于CEEMDAN-HURST算法的COVID-19新增病例组合预测模型。首先,采用CEEMDAN方法对COVID-19新增病例序列进行分解;其次,计算分解后的各个子序列的HURST指数,并整合为高、中、低三
15、个频率的子序列;最后,分别对三种频率的子序列进行LSSVM预测,将其预测结果进行相加即可得到新增病例预测值,并分析比较基于 CEEMDAN分解的 COVID-19组合预测结果与 EMD分解、排列熵PE 重构组合的预测结果。本文提出的 CEEMDAN-HURST组合预测模型有以下几点优势和贡献:(1)该模型充分考虑到COVID-19新增病例时间序列的非平稳非线性的特性,将CEEMDAN方法和HURST方法相结合应用于疫情预测,为传统的疫情预测提供了一种新研究思路。已有研究未见将 CEEMDAN 和HURST组合应用于疫情预测。(2)利用CEEMDAN对有非线性特征的COVID-19新增病例数进行
16、逐级分解为多个平稳的子序列,可有效解决EMD中存在的模态混叠问题和白噪声添加不当的问题;引入HURST指数将子序列分为高、中、低频三个序列,可以有效减少模型的计算量,优化模型的预测效率,同时降低多个序列预测造成的误差。(3)利用LSSVM模型分别对重构后的高频、中频、低频子序列进行预测,并采用交叉验证法优化模型的参数,COVID-19组合预测模型的预测准确性进一步提高。1基于CEEMDAN-HURST算法的组合预测模型对于一个非线性非平稳的时间序列,使用单一的预测方法进行预测很难得到较好的预测效果。而CEEMDAN分解具有良好的分解完备性且对原始序列的分解较为精准,将采用 CEEMDAN分解方法将疫情序列分解为多个子序列。同时为了提高预测的效率,引入 HURST指数将子序列合并为高频、中频、低频子序列,采用LSSVM算法对这三种频率的子序列进行预测并将其结果相加即可得到序列的预测值。1.1CEEMDAN分解EEMD以EMD为基础,在原始信号中加入了白噪声,从而克服了EMD的模态混叠但同时也在结果中残留了部分白噪声。此外,这种算法能够提供原始时间序列的准确重构,并得到更完全的分解,且降低