收藏 分享(赏)

融入距离方差和距离相关系数的偏最小二乘回归方法_聂斌.pdf

上传人:哎呦****中 文档编号:2328716 上传时间:2023-05-07 格式:PDF 页数:8 大小:517.40KB
下载 相关 举报
融入距离方差和距离相关系数的偏最小二乘回归方法_聂斌.pdf_第1页
第1页 / 共8页
融入距离方差和距离相关系数的偏最小二乘回归方法_聂斌.pdf_第2页
第2页 / 共8页
融入距离方差和距离相关系数的偏最小二乘回归方法_聂斌.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期:2022-11-02基金项目:国家自然科学基金(82260849,62141202),民族药资源数据库与信息网络化共享平台构建(2019YFC1712301)和江西中医药大学校级科技创新团队发展计划(CXTD22015)资助项目作者简介:聂斌(1972),男,江西峡江人,教授,博士研究生,主要从事数据挖掘、中医药信息学和中药学的研究E-mail:ncunb163 com通信作者:杜建强(1968),男,江西南昌人,教授,博士,博士导师,主要从事中医药信息与数据挖掘的研究 E-mail:jian-qiang_du163 com聂斌,杜玉文,杜建强,等 融入距离方差和距离相关系数的偏最小

2、二乘回归方法 J 江西师范大学学报(自然科学版),2023,47(1):61-68NIE Bin,DU Yuwen,DU Jianqiang,et al The regression Method of PLS fusing distance variance and distance correlation coefficient J Journal of Jiangxi Normal University(Natural Science),2023,47(1):61-68文章编号:1000-5862(2023)01-0061-08融入距离方差和距离相关系数的偏最小二乘回归方法聂斌,杜玉文,

3、杜建强*,张玉超,郑学鹏,靳海科(江西中医药大学计算机学院,江西南昌330004)摘要:偏最小二乘法(partial least square,PLS)在内部采用 Pearson 系数度量自变量和因变量之间的相关性时提取出的成分不能确保解释性最强,并且 PLS 在将提取的成分进行线性回归时也无法真实反映变量间的函数关系 针对这些问题,该文提出了融入距离方差和距离相关系数的偏最小二乘回归方法(DVDC-CPLS)DVDCCPLS 基于距离方差和距离相关系数提取距离成分,再将距离成分进行拟线性回归得到距离回归方程,通过模型求解方法将距离回归方程转换为原始数据的表达,最终得到结构简洁、精度较高的回归

4、模型 该文分别采用麻杏石甘汤数据和 UCI 数据集测试 DVDCCPLS 的性能,并与其他 5 种经典的回归算法对比,结果表明:DVDCCPLS 具有较好的回归效果和回归性能关键词:偏最小二乘;距离方差;距离相关系数;回归方程;拟线性中图分类号:TP 311文献标志码:ADOI:10 16357/j cnki issn1000-5862 2023 01 080引言偏最小二乘法(partial least squares,PLS)1 是集主成分分析、典型相关分析和多元线性回归分析于一体的多元线性统计分析方法,它通过多个自变量对多个因变量之间的关系进行建模 PLS 首先在预测矩阵 X 中找到方向向

5、量 w,用于解释响应矩阵Y 的最大方差,然后通过获得的系数 w 将 X 和 Y 投影到新空间来建立线性回归模型 当预测矩阵的变量比观测值多且观测值 X、Y 之间存在多重共线性时,PLS 回归尤其适用2 因此,PLS 已被广泛应用于化学、经济学、药学、计算机视觉和模式识别等诸多领域3 应用 PLS 回归分析建立的模型是一种多元线性回归模型,要求自变量与因变量间有显著的线性关系,然而在实际应用中,变量之间往往不是严格的线性关系,而是复杂的非线性关系,且在实际数据中需要解决的往往不是单一的线性问题,而是线性和非线性均存在的复杂问题 因此,若还是运用 PLS对非线性问题或复杂问题进行建模,则将得到较低

6、的回归精度,从而限制了 PLS 在非线性领域问题上的应用针对 PLS 对非线性数据不敏感的问题,有许多非线性 PLS 的改进方法被广泛提出 Liu Hongbin等4 使用高斯过程回归(GP)在 PLS 中建立每对潜变量之间的非线性回归,提出一种动态 GP-PLS模型来提高估计能力 尚栋等5 构造不同影响变量的3 次多项式将其加入 PLS 的建模中以近似校正非第 47 卷 第 1 期江西师范大学学报(自然科学版)Vol 47 No 12023 年 1 月Journal of Jiangxi Normal University(Natural Science)Jan 2023线性因素带来的影响,

7、提出一种基于循环变量筛选的非线性 PLS 方法 Ma Hao 等6 将一种由自回归外生模型和径向基函数神经网络组成的新型级联结构作为传统 PLS 方法的内部模型,使新建立的 PLS 方法具有动态和非线性的特性 贾润达等7 和 JiaoJianfang 等8 运用核函数将低维空间的非线性关系映射到高维空间的线性关系,使得 PLS 方法适用于非线性结构 Zhu Bao 等9 和 Wang Yanxia 等10 将人工神经网络与 PLS 集成在一起,实现一种新的鲁棒非线性 PLS 处理非线性和共线性数据的方法 鲁庆华等11 提出了一种基于偏最小二乘回归和多项式回归相结合的多元非线性回归分析方法,该方

8、法通过 PLS 提取的主成分进行多项式回归,实现了PLS 的非线性回归 A Merino 等12 通过增广输入矩阵包含基于知识变量的非线性变换特点,将增广输入矩阵进行 PLS 回归,提出了一种基于知识的递归 PLS 非线性回归方法 李雄威等13 通过相关性分析选取与因变量相关的自变量,然后构建能够表征非线性关系的输入变量,从而得到针对具体问题的非线性表达式,再利用 PLS 方法建立模型得到表达式的系数,提出一种非线性 PLS 模型,但该方法构建的非线性表达式较简单 F B Lavoie 等14 通过约束谢文龙15 提出的 3 次样条分段迭代模型建立非线性关系,再通过 U Indahl16 和

9、F B Lavoie等17 提出的动力修正 PLS 迭代计算更新权重,提出了一种新的鲁棒非线性回归方法 Peng Shan 等18 提出了一种基于分段线性内部关系的非线性偏最小二乘(PLS)切片变换(SLT)模型,该方法使用基于分段线性映射函数的 SLT 构建输入和输出分数向量之间的非线性内部关系以上研究均在一定程度上缓解了 PLS 对非线性数据表现不佳的问题,大多数的非线性 PLS 改进模型均从外部学习数据的非线性特征作为 PLS 输入得到非线性模型,或者将原始特征进行变换,构建特征的拟线性表达式,再构建 PLS 的非线性回归模型 然而,这些方法并未从内部改变 PLS 的线性框架,如提取的成

10、分为原始数据的线性组合,内部采用Pearson 系数衡量自变量和因变量的相关性,以及对提取的成分进行线性回归 针对上述问题,本文基于PLS 的思想提出一种新的回归方法,该方法通过距离方差反映原数据信息,内部采用距离相关系数度量自变量与因变量的相关性,在多元线性回归分析中采用拟线性回归19 方法1融入距离方差和距离相关系数的偏最小二乘回归模型1 1偏最小二乘法(partial least square,PLS)偏最小二乘法20 是集主成分分析、典型相关性分析和多元线性回归分析于一体的多元线性统计分析方法,可以解决多自变量与多因变量之间的建模问题,对于变量间多重相关性和小样本容量问题尤其适用假设一

11、组自变量 X=(x1,x2,xm)和因变量Y=(y1,y2,yn),PLS 首先分别提取自变量第 1主成分 t1和因变量第 1 主成分 u1,提取的条件为方差 D(t1)max,D(u1)max,同时相关系数 r(t1,u1)max;然后将提取的成分 t1和 u1进行线性回归,得到残差矩阵,判断是否满足精度要求,若精度满足,则算法停止,否则,利用残差矩阵提取下一个主成分,不断迭代直到满足精度要求;最后将提取得到的h个主成分t1,t2,th(h m)进行线性回归,构建每个因变量 yn对 t1,t2,th的回归方程,由于提取的主成分均为原始变量的线性组合,因此最终可表达为yn关于原始自变量X=(x

12、1,x2,xm)的回归方程1 2融入距离方差和距离相关系数的偏最小二乘回归算法DVDCCPLS 算法首先将数据进行预处理,再通过距离方差和距离相关系数最大化提取距离成分,最后通过拟线性回归方法对距离成分进行回归,具体的算法构造过程如图 1 所示首先,将原始数据进行标准化得到E、F,再将标准化后的矩阵计算样本间的欧氏距离得到实对称距离矩阵,再将距离矩阵进行中心化得到矩阵 A、B其次,根据距离方差和距离相关系数最大化的要求,分别求取方向向量 wi和 vi得到自变量距离成分ti和因变量距离成分ui,图1 第2 部分D(Awi)和D(Bvi)表示距离方差,r(,)表示距离相关系数;将得到的距离成分进行

13、回归并计算距离残差和交叉有效性系数 Q2h,利用 Q2h判断应提取的距离成分个数,其中 Spress,h和 Sss,h1分别表示预测误差平方和与误差平方和;最终判断模型是否满足精度条件,若是则输出提取的距离成分,若否则利用距离残差继续提取下一个距离成分最后,将提取的距离成分进行拟线性回归,计算拟线性回归方程的回归系数,通过模型求解方法将26江西师范大学学报(自然科学版)2023 年回归方程转换成原始变量 X 和 Y 的表达1 3融入距离方差和距离相关系数的偏最小二乘(DVDCCPLS)回归算法理论流程1 3 1相关定义假设变量 X 和 Y 的第 k 行样本分别被记为Xk、Yk,其中Xp和Yq服

14、从联合分布,则定义原始变量 X 和 Y 对应的距离矩阵的元素分别为akl=(Xk Xl)2,bkl=(Yk Yl)2,即距离矩阵为原始矩阵两两样本间的欧氏距离 将距离矩阵的元素进行中心化处理得 Akl、Bkl图 1融入距离方差和距离相关系数的偏最小二乘算法结构定义118(距离方差)假设变量 X 有 m 个样本点,则距离方差的定义为V2m(X,X)=1m2mk=1ml=1A2kl(1)定义218(距离协方差)假设变量X和Y有m个样本点,则距离协方差的定义为V2m(X,Y)=1m2mk=1ml=1AklBkl定义 318(距离相关系数)变量 X 和 Y 之间的距离相关系数 2m(X,Y)被定义为2

15、m(X,Y)=mk=1ml=1AklBkl/mk=1ml=1A2klmk=1ml=1B2kl,V2m(X,X)V2m(Y,Y)0,0,V2m(X,X)V2m(Y,Y)=01 3 2构建 DVDCCPLS 回归模型1)标准化变量 假设有自变量X=(x1,x2,xq)和因变量Y=(y1,y2,yp),有 m 个样本点,于是构成了自变量与因 变 量 的 观 测 矩 阵 X=(xij)qm和 Y=(ynt)mp,首先将观测值进行标准化得到标准化后的矩阵 E=(eij)qm,F=(fnt)mp2)计算标准化矩阵两两样本间的欧氏距离并进行中心化处理 将标准化矩阵 E、F 分别计算样本间的欧氏距离,得到距离

16、矩阵的元素分别为 akl、bkl,k、l=1,2,m 将距离矩阵每个元素减去所在行的平均值,减去所在列的平均值,再加上距离矩阵 a所有元素的平均值,最终得到中心化后的距离矩阵元素 Akl、Bkl3)令自变量为 A=(A1,A2,Am),其中 Ai(i=1,2,m)表示距离矩阵 A 的第 i 列数据 同理,设因变量为 B=(B1,B2,Bm),其中 Bi(i=1,2,m)表示距离矩阵B的第i列数据,每列有m个样本点4)提取第 1 个距离成分 根据偏最小二乘法的思想,提取距离成分有 2 个要求:(a)携带原始变量信息最多;(b)自变量与因变量之间的相关系数最大,即提取的主成分应满足max(D(t1),max(D(u1),max(r(t1,u1),(2)而 t1、u1分别为变量 A、B 的线性组合,即t1=Aw1,u1=Bv1,w1=1,v1=1(3)结合式(2)和式(3)可以发现,D(Aw1)=wT1w1mk=1ml=1A2kl/m 和 D(Bv1)=vT1v1mk=1ml=1B2kl/m;可以看出mk=1ml=1A2kl/m、mk=1ml=1B2kl/m 分别为向量 X和 Y 的距离方差

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2