收藏 分享(赏)

基于SCAD_L_%282%29和SCAD混合惩罚的高维随机效应线性回归模型.pdf

上传人:哎呦****中 文档编号:3079782 上传时间:2024-01-19 格式:PDF 页数:14 大小:5.56MB
下载 相关 举报
基于SCAD_L_%282%29和SCAD混合惩罚的高维随机效应线性回归模型.pdf_第1页
第1页 / 共14页
基于SCAD_L_%282%29和SCAD混合惩罚的高维随机效应线性回归模型.pdf_第2页
第2页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Mathemitica数学物理学报2023,43A(4):1297-1310Cientiahttp:/基于 SCADL2和 SCAD 混合惩罚的高维随机效应线性回归模型1李旭琳2 贺素香*王传美(武汉理工大学理学院武汉430 0 7 0)摘要:大数据时代的到来,使得变量选择问题成为了当前统计界和各重要领域实际工作者研究的重点课题在许多实际问题中,由于数据间存在相关性或异方差,对高维模型进行变量选择时会产生较大的系统性偏差。该文考虑高维随机效应线性回归模型,改进了现有的基于双惩罚思想的变量选择方法,提出了基于SCADL2和SCAD的混合惩罚方法,在一定程度上弥补了已有方法不同时具备分组效应和渐近

2、性质的不足:给出了基于混合惩罚的随机效应线性回归模型的两步迭代算法分别在信噪比和随机效应影响不同的情况下对模型进行蒙特卡洛模拟和实例验证结果表明:与其他惩罚方法相比,该混合惩罚方法具有分组效应和渐近性质,表现出更优良的变量选择能力和系数估计效果,适用于高维随机效应线性回归模型.关键词:SCAD_L2和SCAD混合惩罚方法;高维随机效应线性回归模型;分组效应;渐近性质.MR(2010)主题分类:49 R50;7 8 M 2 5;9 7 K 8 0文章编号:10 0 3-39 9 8(2 0 2 3)0 4-12 9 7-141引言互联网信息技术的迅速发展引领人们进入了大数据时代,大数据所展现出的

3、规模与复杂性使得传统的统计方法遭受巨大的冲击,由于传统的统计分析理论仅适用于协变量维数远小于样本量的情形,因此不再普遍适用于高维模型随着高维数据在生物信息、金融管理等领域1的广泛普及,人们对高维模型中的变量选择问题提出了更高的要求,即寻求更简约和科学的预测变量以分析与响应变量的关系,提高模型的解释能力.在高维模型的变量选择问题中,高维变量间通常具有很强的相关性,如同一行业的股票往往表现出显著的相关收益;基因表达经常受到细胞因子的刺激或受到生物过程的调控等若忽视变量间的强相关性,则会使得高维统计推断方法产生较大的系统性偏差而降低效率一般的线性回归模型已不足以解决这类问题,但是引入随机效应可以有效

4、克服该模型的缺陷,提高模型的预测精度和建模的灵活性因此,研究高维随机效应线性回归模型2 至关重要.收稿日期:2 0 2 2-11-11;修订日期:2 0 2 3-0 1-0 5E-mail:;基金项目:国家自然科学基金项目(118 7 1153)Supported by the NSFC(11871153)*通讯作者中图分类号:C81;O 2 2 4文献标识码:A1298当前人们普遍利用正则化方法产生稀疏解以实现变量选择的目的.而是否具有渐近性质是用来判断正则化方法优劣的重要指标,该性质刻画了当主体数量趋于无穷大时,其解所具有的一致性和Oracle性质在实践中,人们发现这些具有强相关性的高维预

5、测变量间具有自发的分组结构,很多学者3利用这一特性合并这些有用的信息,简化模型以改进统计建模和推断如Diaz-Uriarte等(2 0 0 3)利用主成分分析构建寻找一组高度相关的基因Hastie等(2 0 0 3)使用有监督的学习方法选择由层次化学聚类发现的预测基因组故分组效应4对于高维随机效应线性回归模型中的变量选择问题是必要的.下面是几种典型且应用广泛的正则化方法.19 7 0 年,Hoerl和Kennard5提出L2正则化方法,尽管L2惩罚能保证函数的凸性使其具备分组效应,但它无法产生稀疏解,不具备渐近性质19 9 6 年,Tibshiranil6提出Lasso惩罚方法,其基本思想是用

6、Li正则项代替L2正则项,该方法能产生稀疏解,但不具备渐近性质此外,当协变量间具有强相关性时,Lasso方法无法表现出分组效应为克服上述惩罚方法的缺点,Fan和Li7提出了一种典型的非凸正则化模型SCAD惩罚法,该方法能产生稀疏解,具有渐近性质但不具备分组效应.2 0 0 5年,Zou和Hastie8充分结合了L1与L2正则化方法的优势,提出了弹性网惩罚其中L1正则项会导致该惩罚在系数估计时存在有偏性,不具备渐近性质;L2正则项则保证了弹性网具有分组效应.2 0 10 年,Zeng等9 受到弹性网的启发,通过将SCAD函数与L2惩罚结合起来,提出了SCADL2惩罚方法,并证明了该方法不仅具有S

7、CAD函数的优良性质,还具备分组效应综上,易得SCAD.L2是唯一兼具分组效应和渐近性质的惩罚函数,表现出优良的变量选择能力和系数估计效果此外,当不要求分组效应时,SCAD惩罚由于具有较好的变量选择能力和系数估计效果,能在一定程度上节约运行成本,故成为最佳变量选择方法.针对高维随机效应线性回归模型,如何同时选择固定效应和随机效应是解决上述问题的关键。很多学者提出了一些变量选择的方法,如2 0 11年,Joseph等10 提出了基于SCAD和自适应Lasso的混合惩罚方法以同时选择高维随机效应线性回归模型中的固定效应和随机效应,并证明了该方法具有渐近性质虽然他们通过数值实验发现该方法减小了过拟合

8、问题,但其在处理相关性较大的数据集上有所欠缺,不具有分组效应.2 0 12 年,Zeng等9 提出将SCAD_L2惩罚用于一般的线性回归模型并利用该模型进行数值实验即考虑了高维随机效应线性回归模型中i=0的情形,他们发现该惩罚下的模型选择结果虽然表现出了很好的分组效应,但无法解决实际应用中带有随机性的数据选取问题2 0 2 1年,有学者11提出了双SCAD分位回归方法,但该方法也不具有分组效应本文改进了现有的基于双惩罚思想的变量选择方法,综合考虑上述不同惩罚函数的性质,提出了基于SCAD_L2和SCAD的混合惩罚方法,即对高维随机效应线性回归模型中的固定效应和随机效应分别施加SCAD.L2惩罚

9、和SCAD惩罚以使固定效应具有实际问题中同时需要的渐近性质和分组效应,并使随机效应满足渐近性质,且在一定程度上提高了计算机的运行效率.本文其余部分结构如下:第2 节介绍了高维随机效应线性回归模型,且提出了混合惩罚方法并在理论上证明其优良的统计性质;第3节给出基于混合惩罚的高维随机效应线性回归模型的两步迭代算法;第4-5节在不同信噪比和随机效应下对模型进行蒙特卡洛模拟和实例验证,给出该惩罚方法与其他惩罚方法的对比结果;第6 节为总结与展望.数学物理学报Vol.43A2SCADL2和 SCAD混合惩罚方法及其性质本文将研究如下形式的高维随机效应线性回归模型12 No.4李旭琳等:基于SCAD.L2

10、和SCAD混合惩罚的高维随机效应线性回归模型1299Yi=a+2fa:+Cu.nni=N,i=1其中n代表主体的数量,ni代表对第i个主体进行的观察次数,i=1,2,n,Yi代表响应变量,表示对第i个主体的第j次观测样本,j=1,2,ni,表示nk维已知设计矩阵的行向量,=(1,2,k)T代表k维固定效应的系数向量,zii表示与随机效应相对应的p维协变量,i=(il,iz,,ip)T表示对应于第i个主体的p维随机效应的系数向量.针对模型(2.1),本文提出了一种结合罚函数SCAD_L2与SCAD的混合惩罚函数模型,其形式如下所示nnimin L*(,a)=ZZ(ui-a(2.1)kP,Q其中入

11、;0(i=1,2,3)是调节参数,惩罚函数02-2a入;/0|+入2P,(101)=2(-1)(a+1)入2其中2为调节参数,并且P(I;l)+入2 ll2代表对固定效应系数施加SCAD_L2惩=1罚,而Px。(l itl)代表对随机效应系数施加SCAD惩罚.i=1t=1为方便探讨模型(2.2)的性质,这里参考文献15将其重新表述为如下形式minL*(B,a)=2Z(uis-2fa)+nZPA(IBjl),当n很大时,模型(2.3)可以使得惩罚函数项和残差和项具有相当的权重通过这种调整后的惩罚形式,调节参数也发生了相应的尺度变化,例如:模型(2.2)中的调节参数入2 等价于模型(2.3)中的调

12、节参数n入2.相仿地本文用入1(n)和入s(n)分别来强调入1和入3随n变化而变化的情形对于一组独立分布的数据【(ai,Yi),i=1,n;j=1,ni),下面分析混合惩罚方法的渐近性质.定理 2.1(一致性)对于模型(2.2),若当n趋于o 时,入i(n),入s(n)和Vn入2(n)均收敛于0,则存在L*(,)的局部极小值点(n)和(n)满足I/(n)-*l=0(n-1/),l(n)-a=0,(其中*=(u,,)T 为固定效应变量的真实系数,*=(i,,)为随机效应变量的真实系数.i=1 j=1j=1nnii=1 j=1+nall11+n2 Px.(lal),i=1 t=100l入i,入;0

13、|a入i,kj=1nPi=1 t=1(2.3)(n-1/2)1300注2.1这里对(n)系数估计的一致性证明可参见文献9,同理可证(n)系数估计的一致性,定理2.2(Oracle性质)对于模型(2.2),若当n趋于+oo时,入1(n),入s(n)和Vn入2(n)均收敛于0,而Vn入i(n)和Vn入s(n)趋于+oo,则模型(2.3)的一致局部极小值点以概率1满足(1)稀疏性:z(n)=0,z(n)=0.(2)渐近正态性其中ZM、ZM 均为正定阵,这里假设前d个向量均为非零向量,且令M=(,,a)T代表固定效应中非零的系数向量,=(a+1,,k)T代表固定效应中为零的系数向量.同样令mM=(a

14、i)代表随机效应中非零系数向量,1=(a*+1,)代表随机效应中为0 的系数向量.注2.2 对固定效应中(n)稀疏性和渐近正态性的证明具体可参考文献9,同理可证明(n)的稀疏性和渐近正态性.为验证混合惩罚方法对固定效应的系数估计具有分组效果,下面证明模型(2.2)的分组效应.定理2.39)记PA1,A2,(0,)=PA,(0)+入2 0 2+Px(i).如果存在1和2 满足01 02 0,且 入2 1/2(-1),则有P1,A2,a。(0 1,j)-PA 1,A 2,A (2,a;)C 0 2 -0 1l,其中PA,(0)和P。(0)由模型(2.2)定义,PA1,入2,。(0,j)为PX1,入

15、2,a。(e,j)关于日的导数,C=2)2-1/(a-1).下面利用定理2.3给出模型(2.2)的分组定理.定理2.4(分组定理)对于给定的数据(af,Yi)和系数入1与入2,以响应变量Yi为中心,将解释变量c进行标准化处理。若对于固定的j,相应的解释变量a,,和a,,的系数Bii和iz之间的距离D入1,入(i,i2)满足(2.4)其中=,iz,为样本相关性,系数D1,(i 1,2)=1/l g l 13(1,2)Bz(1,2)(入1,入2)代表估计系数,则模型(2.2)的解具有分组效应.证为方便起见,将模型(2.2)改写如下形式kLA1,Aa,a(B,a)=llu-X-Zal+Z Px1.a

16、(Ba)+fas(aa),i1=1数学物理学报(3m(n)z(n)M(n)=&M(n)(zi(n)Vn(Bm(n)-m)Dn(0.0Dm),Vn(am(n)-am.)n(0,Ei),D1,A2(i1,i2)nPi=1j=1Vol.43A/2(1-p),(2.5)No.4李旭琳等:基于SCAD.L2和SCAD混合惩罚的高维随机效应线性回归模型其中i代表混合惩罚函数中对估计系数的第i项.对i求偏导可得L=1(u-X-Za)+Pk1,a(Ba).i令式(2.6)为0,且将任意两项相减可得P1,a2(Bi)-PA1,a(Bia)=(aT-T)(-X-Za).根据定理2.3可得P1.a(B31)-PX1

17、,a(B3a)/(2入2 -a-)1333i1-i21.由于P1,(B1)-P1,2(Bi2)=(-)(-X-Za)/I-lly-X-Zall,所以又因为故D(i1,i2)证毕.注2.3定理2.4给出了两个估计系数间距离的上界如果两个估计系数之间相关系数的绝对值接近于1,则定理2.4可以保证两个估计系数非常接近.因此,定理2.4表现了模型(2.2)的解具有分组效应.综上,该混合惩罚方法在理论上是一种优良的变量选择和系数估计方法.1301(2.6)-)Bi-i2llla-alll-X-Zall.2入2ly-X-Zlly-X-Zl1Ily-x-Zall2入2-1Ily-Zoll+PAx1.a(Bg

18、n)ll-Zall,i1=1i-ai2ll2入2 -a1:V/2(1-p).13两步送代算法本节利用模型(2.2)的结构特性,采用两步迭代法求解模型(2.2).下面给出模型(2.2)中惩罚参数的选取准则和算法描述,3.1焦惩罚参数的选取准则根据模型(2.2)可以看到惩罚函数有三个调优参数入1,入2 和入3综合考虑不同参数选取原则的优劣性,本文采用广义交叉验证法15】(Generalized CrossValidation,G C V)确定它们的取值具体流程为:为待选参数设置一个三维网格,其中令入1和入3的取值范围均为(0.01,10;从0.0 0 1,0.0 1,0.1,1,10)中选取入2;

19、通过最小化GCV误差(3.1)(1-e(A/2:da2)nn1302其中e(入1,入2,入3)代表参数计算误差,从而得到最优参数集根据选择出的最佳参数,进一步采用两步迭代法计算模型(2.2),下面给出两步迭代法的描述.3.2算法描述两步迭代法的描述如下.步1初次送代求解时令()=0(i=1,2,n),则原式等价于只含系数的SCAD_L2惩罚线性回归模型。然后利用LQA方法对该模型进行求解,可得(s)=arg min L(,0),这里S=0.步2 将求解出的3)代入模型(2 2)中,则可以看作调整残差为rg)一2%8)此时模型中只有系数 求解模型a-argminaLa)),将求解出的a代人模型)

20、中,则可以看作调紧响应变量为15一m一%-)此时模型中只有系数,再利用LOA方法求解得到a+agmnaL(a.a)-0.1步3反复选代步2,当max|(+1)=(双SCAD惩罚方法 SCAD_L2惩罚方法(不考虑随机效应);从衡量指标F1和F2的计算结果发现:四种方法均具有较好的变量选择能力且差距不大故对于高维稀疏模型,混合惩罚方法具有较好的系数估计效果和变量选择能力.惩罚方法F2SCAD_L2(不考虑随机效应)6.28双 Lasso2.13双 SCAD4.96混合惩罚3.27下面将根据表4给出如下模拟结果分析:从衡量指标MSE的计算结果发现:双Lasso惩罚方法 双 SCAD 惩罚方法混合惩

21、罚方法 SCAD-L2惩罚方法(不考虑随机效应);从数学物理学报=(3,1.5,0,0,2,0,0,0)T;表3稀疏模型下四种惩罚方法衡量指标结果惩罚方法F15.120.672.371.004.240.673.660.67表4稠密模型下四种惩罚方法衡量指标结果MSEF11.001.001.001.00Vol.43AMSEF21.000.800.800.80No.4李旭琳等:基于SCAD.L2和SCAD混合惩罚的高维随机效应线性回归模型衡量指标F1的计算结果发现:上述四种方法均能准确地筛选出重要变量.故对于高维稠密模型,混合惩罚方法具有较好的系数估计效果和变量选择能力.结合表3-4,我们可以发现

22、无论是对于高维稀疏模型还是高维稠密模型,双Lasso方法均具有较好的系数估计效果和变量选择能力但是从理论上分析,该方法不具有渐近性质,故不适用于大样本数据;双SCAD方法对于高维稠密模型更加有效;此外对于模型(4.1)而言,仅针对固定效应系数施加惩罚是不够的,具有一定程度的误差;而该混合惩罚方法则更加适用于当前热门研究课题中的高维稀疏化模型.下面从分组效应角度来分析上述不同惩罚方法的效果差异.4.4.2分组效应的效果比较下面将考虑在更高维数的稀疏模型下比较四种不同惩罚方法的分组效果,这里根据模型(4.1)生成数据为使分组效应17 在实验中有更明显的结果,这里需要重新确定各变量的取值,取=(33

23、,00),=40,j=1,其中设计矩阵X=(a)40 x1分成四组以确15保每一组设计矩阵中变量间的相关系数趋近于1,并且每组均按如下准则随机产生ai=Z1+ij,Zi N(0,1),i=1,2,5,j=1,aij=Z2+ij,Z2 N(0,1),i=6,7,.,10,j=1,ai=Z3+ij,Z3 N(0,1),i=11,12,.,15,j=1,aij N(O,1)i=16,17,40,j=1,其中iN(0,0.0 1),=1,2,15,j=1.在仿真实验中,令随机误差eiN(0,1),并且将恒定设置为1;在有适当随机变量干扰程度的影响下,综合考虑计算机的运行速度,这里令随机效应的协方差为D

24、=diag(1,1,1,1,0);然后由广义GCV参数选取准则得到的调优参数(1,入2,入3)对模型进行训练拟合,最后将所得结果用于测试集中以检验系数估计效果;取混合惩罚函数中的常数为3.7(见参考文献7).由四种不同惩罚方法得到的分组效应结果见表5,其中X;=c i,且各列数据代表由不同惩罚方法得到的系数估计.下面将根据表5给出如下模拟结果分析(1)在高维稀疏模型中,利用混合惩罚方法所得系数估计结果更加准确,并且在以每五个相关性很高的变量为一组的情况下,相应筛选出来的变量系数近似相等且与真实系数最为接近,即混合惩罚方法表现了很好的分组效果.(2)不考虑随机效应的SCAD_L2惩罚方法虽然对固

25、定效应体现了分组效应,但是其对第三组变量的系数估计值与真实系数值存在较大偏差,故仅考虑固定效应是不够的.(3)在高维稀疏模型下,无论是对模型(2.1)施加双SCAD惩罚方法还是双Lasso惩罚方法,所得结果均不具备分组效应.(4)结合上述三条分析得出:对于更高维数的稀疏模型,混合惩罚方法具有很好的分组效应.综上,该混合惩罚方法具有很好的分组效应,表现出更优良的系数估计效果和变量选择能力.130525(4.3)1306SCAD.L2双 LASSO双 SCAD混合惩罚X15.20X25.23X35.43X40.00X50.00X65.06X74.984.900.00X100.00X110.00X1

26、27.65X130.00X140.00X157.72X160.00X170.00X180.00X190.00X200.005实例分析本节将通过实例验证该混合惩罚方法的统计效果本文将混合惩罚方法应用于在线新闻流行度数据集18 研究中,该数据集总结了一组关于在两个阶段发布的全球之声文章的异构特性,其研究目的在于使得所发布的文章在社交网络中获得更多的人气.本文从HTML 代码中提取了一个广泛的特性集,其描述了文章不同方面的特征,这些特征被认为可能是影响文章流行度的相关因素,如表6 所示.其中一些特性依赖于Mashable服务的特殊性:如文章经常引用在同一服务中发布的其他文章等本文还提取了一些自然言语

27、处理的特征,如LDA算法应用于所有Mashable文本,并据此确定5个最重要的相关主题,衡量当前文章与这些主题的密切程度。这里用X;(i=1,2,,60)表示相应的自变量,本文借鉴了Fernandes18 所提出的方法以判断文章是否受欢迎,这里采用 Scikit 学习库对预测模型进行拟合,首先假设一个二元分类任务,如果其中一篇文章的分享数高于一个固定的决策阈值(这里选用10 0 0),则认为其是“受欢迎的”,否则认为是“不受欢迎的”对于预测实验,Fernandes在文献18 中采用了滚动窗口方案,即取训练窗口大小为10 0 0 0 进行29次迭代,每次迭代进行10 0 0 个样本的预测,并据此

28、测试了五种分类模型.结果表明,随机森林(RF)模型在AUC度量方面的表现最佳,得到的最佳结果(AUC=0.73)比随机分类器高2 3%,达到了较好的辨别水平,是一个良好的分类器本文据此对上述四种不同的分类方法做了相似的实验,结果表明,该混合惩罚方法在AUC度量方面的表现最佳,达到7 2.8%,与RF模型的分类水平相近,表明了混合惩罚在该阈值下同样有较好的分类效果.数学物理学报表5不同惩罚方法下的分组效应结果SCAD.L2 双 LASSO0.000.000.0015.170.000.000.000.000.000.000.000.0010.8315.410.000.000.000.000.010

29、.000.000.0011.320.000.0015.120.000.000.000.000.000.000.000.000.000.000.000.000.000.00Vol.43A双 SCAD混合惩罚5.07X210.00X220.000.00X230.005.08X240.005.08X250.000.00X260.000.00X270.006.13X286.13X290.000.00X304.98X314.98X320.01X334.98X340.000.00X350.00X360.000.00X370.000.00X380.000.00X390.00X400.000.000.000.

30、000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.010.000.000.000.000.000.010.000.000.000.000.000.000.000.000.000.000.00No.4李旭琳等:基于SCAD.L2和SCAD混合惩罚的高维随机效应线性回归

31、模型表6 影响文章流行度的6 0 个特征集表Mashable被引文章的最非预测性因素X29-31Xi文章的url文章发布到X2数据集获取天数字词标题中的字X3数内容中的单X4词数内容中唯一X5单词的比率内容中不停X6顿单词的比率内容中唯一X7不停顿单词的比率内容中单词X12的平均长度为了更加直观地验证混合方法的分组效应,本文根据原始数据分别求得各变量间的相关系数,结果得到仅X36和X38及X44和X50这两组解释变量间具有很高的相关性,其相关系数分别为0.6 6 2 和0.6 32;利用上述四种不同的惩罚方法对影响新闻流行度的所有自变量进行变量选择和系数估计并计算均方误差(Root Mean

32、Squared Error,R M S E),相应的系数估计结果如表7 所示,其中表7 中非零系数对应的变量为筛选出的与人气值最为相关的重要变量,其余均为非重要变量.根据表7 发现针对X36和X38及X44和X50这两组具有强相关性的解释变量,只有利用混合惩罚方法所得的X36和X38的估计系数近似相等;同样X44和X50o对应的估计系数也十分接近这体现了混合惩罚方法具有很好的分组效应,并且所得RMSE最低仅为1.30,说明混合惩罚方法具有更优良的系数估计效果和变量选择能力.综上,该混合惩罚方法具有的优良统计性质有利于筛选出影响在线新闻流行度的相关变量以使发布的文章获得最佳人气。1307接近LD

33、A的X40-44小/平均/最小份额数字媒体X10镜像数量X11视频数量关键词X13关键词个数最差关键词(最小/平均X20-22/最大份额)最佳关键词X23-25(最小/平均/最大份额)平均关键词X26-28(最小/平均/最大份额)数据渠道X14-19(娱乐、商业等)前5个主题X45文本主体性文本情感极X46性积极/消极单词比X47-48率非中性词中X49-50肯定/否定词比率积极/消极词的最小/X51-56平均/最大极性X57标题主体性X58标题极性绝对主观性X59水平1308SCADL2双 LASSO双SCAD混合惩罚X10.00X219.23X30.00X40.00X50.00X0.89X

34、716.53X80.00X28.70X100.00X116.23X120.00X130.00X140.00X150.00X160.00X170.00X180.00X194.64X200.00X210.00X220.00X230.00X240.00X250.00X260.00X270.74X280.00X290.00X300.01数学物理学报表7混合惩罚方法的实例结果SCAD.L2双LASSO双SCAD混合惩罚-31.470.0061.630.00-0.350.00-5282.700.00-1920.600.004763.570.0013.2710.51-84.370.0049.1221.27-

35、11.1927.09706.950.00-7.550.00-1657.600.00-1584.200.00-1404.600.00-772.390.00-1291.700.00-2413.400.004.440.000.000.00-0.600.000.000.000.000.000.000.000.030.000.090.000.180.37-0.060.02-0.030.000.100.00Vol.43A0.46X310.00X320.16X330.00X340.00X350.00X366.37X370.00X382.32X390.00X400.00X419.91X420.00X430.0

36、0X440.47X450.44X461.36X470.09X480.54X490.00X500.00X510.00X520.00X530.00X540.00X550.00X560.31X570.00X580.00X590.00RMSE15.500.000.000.001.67010.50.000.000.000.000.003.280.500.000.000.000.000.930.000.000.000.000.000.000.001.591.761.471.79-118.32-396.800.00366.27-18.614202.840.00209.87-569.39-357.61110.

37、57201.520.00-794.87617.38-5951.3015978.600.00-1676.30-767.63-1895-652.454482.02-2489.10-5488.40226.15432.661307.10359.22229.560.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.00171.030.000.004.350.000.000.000.000.350.660.000.650.000.000.000.000.00

38、0.410.000.000.001.060.190.410.000.000.000.000.000.290.090.530.001.306总结与展望本文对模型(2.1)提出了一种基于SCAD_L2惩罚和SCAD惩罚的混合惩罚方法,论证了在混合惩罚下固定效应不仅具有良好的变量选择能力和系数估计能力,还具有很好的分组效应,并且随机效应也具有良好的变量选择能力,这是由两种不同惩罚方法的性质所决定的进一步通过蒙特卡洛模拟对该混合惩罚方法的统计性质进行了验证,结果表明:与其他惩罚方法相比,在不同信噪比和随机效应下该混合惩罚方法具有较好的系数估计和分组效No.4李旭琳等:基于SCAD.L2和SCAD混合惩

39、罚的高维随机效应线性回归模型应效果。同时通过在线新闻流行度的实例验证了混合惩罚方法具有更优良的统计性质,适用于高维稀疏模型.仍有大量工作值得今后继续研究,如:将混合惩罚方法进一步应用到随机效应分位回归模型等其他模型中;对两步迭代算法加以改进以节约模拟实验中计算机的运行时间;在基因表达和前列腺癌症等实例中验证混合惩罚方法的系数估计和分组效应效果等.1陈钊,范剑青,王丹高维因子模型及其在统计机器学习中的应用中国科学,2 0 2 0,50(4):447-49 0Chen Z,Fan J Q,Wang D.High-dimensional factor and its applications to

40、statistical machine learning.China Science,2020,50(4):447-4902 Ho R K W,Hu I.Flexible modelling of random effects in linear mixed model-a bayesian approach.Com-putational Statistics&Data Analysis,2008,52(3):1347-13613 West M,Blanchette C,Dressman H,et al.Predicting the clinical status of human breas

41、t cancer by usinggene expression profles.Proceedings of the National Academy of Sciences of the United States of America,2001,98(20):11462-114674 Zou H,Hastie T.Regularization and variable selection via the elastic net.Journal of the Royal StatisticalSociety,2005,67(2):301-3205 Hoerl A E,Kennard R W

42、.Ridge regression:Biased estimation for nonorthogonal problems.Technometrics,2000,42(1):80866 Tibshirani R.Regression shrinkage and selection via the lasso:a retrospective.Journal of the RoyalStatistical Society,Series B.Statistical Methodology,2011,73(3):273-2827 Fan J,Li R.Variable selection via n

43、onconcave penalized likelihood and its oracle properties.Journal ofthe American Statistical Association,2001,96(456):1348-13608 Zou H,Hastie T.Regularization and variable selection via the elastic net.Journal of the Royal StatisticalSociety,Series B.Statistical Methodology,2005,67(2):301-3209 Zeng L

44、,Xie J.Group variable selection via SCAD-L2.Statistics,2014,48(1):49-6610 Ibrahim J G,Zhu H,Garcia R I,et al.Fixed and random effects selection in mixed effects models.Biometrics,2011,67(2):495-50311任雪妮,罗幼喜基于双SCAD惩罚的随机效应分位回归模型。统计与决策,2 0 2 1,37(18):9-13Ren X N,Luo Y X.Random effects quantile regressi

45、on model based on double SCAD punishment.Statis-tics&Decision,2021,37(18):9-1312 Bondell H D,Krishna A,Ghosh S K.Joint variable selection for fixed and random effects in linear mixed-effects models.Biometrics,2010,66(4):1069-107713 Fan Y,Li R.Variable selection in linear mixed effects models.Annals

46、of Statistics,2012,40(4):2043-204514罗幼喜,李翰芳混合效应模型的多惩罚回归过程及其算法收敛性研究。统计与信息论坛,2 0 17,32(10):3-10Luo Y X,Li H F.Research of multi-penalty regression process of mixed effects models and its convergence.Statistics&Information Forum,2017,32(10):3-1015李根,邹国华,张新雨。高维模型选择方法综述数理统计与管理,2 0 12,31(4):6 40-6 58Li G,

47、Zou G H,Zhang X Y.A review of high-dimensional model selection methods.Journal of AppliedStatistics and Manage,2012,31(4):640-65816 Wu Y,Liu Y.Variable selection in quantile regression.Statistica Sinica,2009,36(5):801-81717 Gregory K B,Wang D,Mcmahan C S.Adaptive elastic net for group testing.Biomet

48、rics,2019,75(1):13-2318 Fernandes K,Vinagre P,Cortez P.A proactive intelligent decision support system for predicting the popu-larity of online news.Proceedings of the 17th EPIA 2015-Portuguese Conference on Artificial Intelligence,2015:53554619 Kackar R N,Harvulle D A.Unbiasedness of two-stage esti

49、mation and prediction procedures for mixedlinear models.Communications in Statistics,Series A,1981,10(6):1249-12611309参考文献1310High Dimensional Random Effects Linear Regression Model BasedAbstract:With the advent of the era of big data,variable selection has become a key topicin the current statistic

50、al field and practical workers in various important fields.In many prac-tical problems,due to the existence of correlation or heteroscedasticity between data,variableselection of high-dimensional models produce large systematic bias and low efficiency.In thispaper,we consider high-dimensional random

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2