1、第 38 卷哈尔滨师范大学自然科学学报Vol 38,No 6 2022第 6 期NATUAL SCIENCE JOUNAL OF HABIN NOMAL UNIVESITY基于弹性网的两阶段模型平均方法及应用研究*魏巍,王星惠,陈晓星(安徽大学)【摘要】针对高维数据集的复杂性,提出基于弹性网的两阶段模型平均方法,并将其应用于上证 180 指数的分析与预测研究中 首先通过弹性网进行变量降维并构建稀疏的候选模型;再根据 Jackknife 模型平均方法平均候选模型,最大限度用最少的成本获取更多的信息,减少有用信息的损失以提高模型预测精度,并使用各类预测误差指标来验证各预测模型的有效性 研究表明,两
2、阶段模型平均方法可以有效降低上证 180 指数预测模型的预测误差;弹性网 JMA 方法在高维有效样本下具有更好的预测表现和稳健性【关键词】弹性网;模型平均;模型预测;Jackknife【中图分类号】F224 7【文献标识码】A【文章编号】1000 5617(2022)06 0047 07收稿日期:2022 09 20*基金项目:国家自然科学基金项目(11701005);中国博士后科学基金面上资助(2019M662146);安徽省社会科学规划项目(AHSKQ2020D63)通讯作者0引言在大数据时代背景下,随着计算机收集、储存数据的技术不断发展,数据规模越来越大,数据维度也越来越高 经研究发现这
3、类高维数据中只有极少数被认为与预测真正相关,如何从繁杂的数据中寻找出有效的信息也成为国内外研究的热点针对维数祸根问题,目前流行的高维变量选择方法是由 Tibsniran 提出的 Lasso 方法,该方法在一般线性最小二乘的前提下通过惩罚将无影响和弱影响的变量的参数压缩为零,以实现降维功能1 刘睿智和杜溦将基于变量选择观点的Lasso 选择方法运用到资产选择和预测中,取得了很好的效果3 Wu 等在指数追踪时使用 Lasso方法,并在实证分析中取得较好效果4 在 Lasso方法的基础上,Zou 提出的自适应 Lasso 方法,不仅克服了 Lasso 方法对重要变量的系数估计有偏且不具有 Oracl
4、e 性质的问题,而且还具备良好的实用性5 秦晔玲和朱建平利用自适应 Lasso 方法对深沪 300 指数的指数追踪进行分析,研究发现该方法在股票选择和有很好的效果6 但高维数据通常存在多重共线性问题,Lasso 方法处理这类数据效果不佳,为克服这一问题,Zou 和Hastie 提出了一种改进的 Lasso 算法 弹性网方法,可以克服原始数据中的共线性与群组效应,能有效地处理高维数据7 Wu 和 Yang 将弹性网方法运用到沪深 300 指数和上证 180 指数跟踪上,研究表明弹性网方法比 Lasso 方法具有更好的表现8 模型选择(Model Selection,MS)因其简单性和可解释性在统
5、计建模中一直占据重要地位9 14 但模型选择过程或多或少存在一些缺陷15 16,会带来不确定性,可能使估计或预测的哈尔滨师范大学自然科学学报2022 年 第 38 卷误差偏大,导致模型预测效果变差 为了弥补这些缺陷,越来越多的学者开始关注模型平均方法(Model Averaging,MA)模型平均通过给一组相互竞争的候选模型赋权,获得一个加权平均的预测值 该预测值充分利用了各候选模型的信息,因而具有更高的模型预测精度,模型更加稳健模型平均方法主要有两个发展方向:Bayes 模型平均方法(BMA)和频率模型平均方法(FMA)该文考虑的是频率模型平均方法17,它的最优权重选取是至关重要的,当下常见
6、的权重选择方法包括 Smoothed AIC(S AIC)、Smoothed BIC(S BIC)方法18、基于 Mallows 准则的 MMA(Mal-lows Model Averaging)19 和基于 Jackknife 准则的 JMA(Jackknife Model Averaging)20 等Hu 等研究发现,在大多数情况下,模型平均比单个模型的预测精度高,但是在单个模型中存在许多变量时,模型平均与模型选择相比没有什么改善21 针对这种情况,Ando 和 Li 提出了一种应 用 于 高 维 数 据 的 两 步 交 叉 验 证 方 法(MCV),先通过预测变量与响应变量间的边际相关性
7、构建候选模型,再通过 Jackknife 准则来估计模型权重,这是高维频率模型平均发展的重要一步22 根据类似的思想,Ando 和 Li 进一步将模型平均扩展到高维广义线性模型23 Pan 在Ando 和 Li 研究的基础上加以思考,提出了一个改进的两阶段模型平均方法(IMA),先通过高维变量选择方法筛选变量并构建候选模型,再运用Jackknife 准则来优化模型权重进行模型平均,最后将该方法应用于叶黄素数据中24 研究发现与 MCV 相比,IMA 具有更优秀的预测性能,更适合高维数据受上述文献的启发,该文试图将弹性网与Jackknife 模型平均方法相结合,提出了一种基于弹性网的两阶段模型平
8、均方法(弹性网 JMA),以上证 180 指数及其所有成分股的 30 分钟线收盘价为研究对象 通过基于弹性网的变量选择方法对上证 180 指数的所有成分股进行具体的股票选择以实现降维的目标,并构建稀疏的候选模型,再通过 Jackknife 模型平均方法对上证180 指数的 30 分钟线收盘价进行预测 为了比较弹性网 JMA 的预测效果,该文考虑了多种基准模型用于对比分析,分别是 Lasso 回归、弹性网回归、基于 Lasso 的两阶段模型平均方法(Lasso MMA和 Lasso JMA)以及基于弹性网的两阶段 Mal-lows 模型平均方法(弹性网 MMA)实验结果表明:该文提出的弹性网 J
9、MA 的预测性能优于其他基准模型,实证结果表明该方法的优越性1理论模型1 1模型建立假设有 n 个独立的观测值(xi,yi)nt=1,考虑一个多元线性回归模型:yt=pj=1jxtj+t,t=1,2,n,j=1,2,p(1)其中,yt是第 t 次观测的被解释变量,xt=(xt1,xt2,xtp)T是第 t 次观测的全部解释变量,xtj是第 t 次观测的第 j 个解释变量,j是第 j 个解释变量的回归系数,独立随机误差t是零均值且有限方差 2 该文研究过程中,假设只有一部分解释变量在预测被解释变量是有贡献,表示真实解释变量(即具有非零回归系数的解释变量)的数量为 s,s 和真实解释变量是未知的为
10、了后续书写方便,将模型(1)表示为矩阵形式:y=X+(2)其中,1 2模型原理与研究框架1 2 1Lasso 方法Tibshirani 提出 Lasso 方法1 不失一般性,假定对被解释变量 y 进行中心化,对解释变量 X进行标准化,即84第 6 期基于弹性网的两阶段模型平均方法及应用研究nt=1yt=0,nt=1xtj=0,nt=1x2tj=1,j=1,2,p(3)Lasso 估计定义为:L=arg minnt=1(yt 0pj=1xtjj)2+pj=1|j|(4)其中,pj=1|j|是一次惩罚项Lasso 方法是在最小二乘的基础上加入约束,使得非零回归系数 j向 0 收缩,选择出更具有价值
11、的解释变量 Lasso 方法能降低预测方差,实现变量选择,但是也存在一定的局限性 对于n p 的解释变量,最多只能选出 min(n,p)个变量 当 p n 时,最多只能选择 n 个解释变量,会影响到模型的预测精度,对建模带来误导1 2 2弹性网针对 Lasso 回归的局限性,Zou 和 Hastie 在Lasso 回归方法的基础上提出了弹性网回归方法7 弹性网估计定义为:EN=arg minnt=1(yt 0pj=1xtjj)2+1pj=1|j|+2pj=12j(5)令 =11+2,=1+2,则弹性网估计可简化为:EN=arg minnt=1(yt 0pj=1xtjj)2+pj=1|j|+(1
12、 )pj=12j(6)其中,pj=1|j|+(1 )pj=12j是弹性网的惩罚项,是 Lasso 回归罚函数和岭回归罚函数的凸组合 当 =1 时弹性网回归为简单的 Lasso 回归,当 =0 时即为简单的岭回归 弹性网回归兼具岭回归和 Lasso 回归的优点,既有较好的特征选择能力,又有较好的群组效应,对于高度相关的特征具有更好的特征选择能力,能有效处理地处理高维数据1 2 3模型平均方法模型平均方法是把候选模型通过一定的权重进行加权平均形成一个新的组合预测模型,各个候选模型权重的确定尤为重要,确定模型平均权重的准则诸多,该文考虑 MMA 和 JMA 方法MMA 方法是由 Hansen 提出的
13、一种常数权重模型平均方法,他首次将 Mallows 准则引入到模型平均方法当中,通过极小化 Mallows 准则来得到各个候选模型的权重19 假设共有M个候选模型,第m个候选模型使用的是 xt的前 km个元素作为解释变量且 0 k1 kM,u1,u2,uM是一组 u 的估计量,该集合中第 m 个估计量为um=Xmm,其中m是第 m 个模型中系数 m的最小二乘估计 设w=(w1,w2,wM)是 M 个候选模型的权重向量,且w W=0,1M:Mm=1wm=1 则条件均值 u 的模型平均估计值为:u(w)=Mm=1wmum(7)权重选择的 Mallows 准则是:Cn(w)=y u(w)2+22wT
14、k(8)其中,2=y um2/(n km),k=(k1,k2,kM)T,通过极小化 Mallows 准则得到权重为:wMallows=arg minwWCn(w)(9)综上所述,可得到 MMA 方法估计值为:u(wMallows)=Mm=1wMallowsmum(10)第 t*个被解释变量 yt*的预测表达式为:yMallowst*=Mm=1wMallowsmxt*m(11)其中,wMallowsm是基于 Mallows 准则求解得到的第m 个候选模型的权重,t*表示预测样本的第 t*次观测,xt*是预测样本中第 t*次观测的全部解释变量,m是第 m 个候选模型中系数 m的最小二乘估计Hans
15、en 和 acine 提出了 JMA 方法,它是常数权重模型平均方法中比较有代表性的一个方法 JMA 方法适用于随机误差为同方差和异方差的情形,弥补了 MMA 方法只能用于同方差的不足,适用性更优20 94哈尔滨师范大学自然科学学报2022 年 第 38 卷求解 M 个候选模型的 Jackknife 估计量?u1,?u2,?uM,第 m 个估计量是?um=(?u1m,?u2m,?unm)T,其中?utm是从样本中删除第 t 组观测值(xt,yt)后?utm的估计值 用 Xtm表示矩阵 Xm剔除第 t 行后的剩余矩阵,yt表示从向量 y 中去除第t 个元素后的剩余向量 则第 m 个估计量为:?u
16、tm=Xtm(Xtm)TXtm)1(Xtm)Tyt(12)则条件均值 u 的 Jackknife 模型平均估计值为:?u(w)=Mm=1wm?um(13)接下来,基于 Jackknife 准则来选择权重向量 Jackknife 准则为:Jn(w)=y?u(w)2(14)通过极小化 Jackknife 准则得到权重向量:wJackknife=arg minwWJn(w)(15)综上所述,可得到 Jackknife 模型平均估计值为:u(wJackknife)=Mm=1wJackknifemum(16)第 t*个被解释变量 yt*的预测表达式为:yJackknifet*=Mm=1wJackknifemxi*m(17)其中,wJackknifem是基于 Jackknife 准则求解得到的第 m 个候选模型的权重,t*表示预测样本的第t*次观测,xt*是预测样本中第 t*次观测的全部解释变量,m是第 m 个候选模型中系数 m的最小二乘估计1 2 4两阶段模型平均方法该文提出基于弹性网的两阶段模型平均方法,具体步骤如下第一步:降维 将要研究的数据分为训练集T1和测试集 T2,用基于弹性网的变量选