ImageVerifierCode 换一换
格式:PDF , 页数:8 ,大小:517.40KB ,
资源ID:2328716      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/2328716.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(融入距离方差和距离相关系数的偏最小二乘回归方法_聂斌.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

融入距离方差和距离相关系数的偏最小二乘回归方法_聂斌.pdf

1、收稿日期:2022-11-02基金项目:国家自然科学基金(82260849,62141202),民族药资源数据库与信息网络化共享平台构建(2019YFC1712301)和江西中医药大学校级科技创新团队发展计划(CXTD22015)资助项目作者简介:聂斌(1972),男,江西峡江人,教授,博士研究生,主要从事数据挖掘、中医药信息学和中药学的研究E-mail:ncunb163 com通信作者:杜建强(1968),男,江西南昌人,教授,博士,博士导师,主要从事中医药信息与数据挖掘的研究 E-mail:jian-qiang_du163 com聂斌,杜玉文,杜建强,等 融入距离方差和距离相关系数的偏最小

2、二乘回归方法 J 江西师范大学学报(自然科学版),2023,47(1):61-68NIE Bin,DU Yuwen,DU Jianqiang,et al The regression Method of PLS fusing distance variance and distance correlation coefficient J Journal of Jiangxi Normal University(Natural Science),2023,47(1):61-68文章编号:1000-5862(2023)01-0061-08融入距离方差和距离相关系数的偏最小二乘回归方法聂斌,杜玉文,

3、杜建强*,张玉超,郑学鹏,靳海科(江西中医药大学计算机学院,江西南昌330004)摘要:偏最小二乘法(partial least square,PLS)在内部采用 Pearson 系数度量自变量和因变量之间的相关性时提取出的成分不能确保解释性最强,并且 PLS 在将提取的成分进行线性回归时也无法真实反映变量间的函数关系 针对这些问题,该文提出了融入距离方差和距离相关系数的偏最小二乘回归方法(DVDC-CPLS)DVDCCPLS 基于距离方差和距离相关系数提取距离成分,再将距离成分进行拟线性回归得到距离回归方程,通过模型求解方法将距离回归方程转换为原始数据的表达,最终得到结构简洁、精度较高的回归

4、模型 该文分别采用麻杏石甘汤数据和 UCI 数据集测试 DVDCCPLS 的性能,并与其他 5 种经典的回归算法对比,结果表明:DVDCCPLS 具有较好的回归效果和回归性能关键词:偏最小二乘;距离方差;距离相关系数;回归方程;拟线性中图分类号:TP 311文献标志码:ADOI:10 16357/j cnki issn1000-5862 2023 01 080引言偏最小二乘法(partial least squares,PLS)1 是集主成分分析、典型相关分析和多元线性回归分析于一体的多元线性统计分析方法,它通过多个自变量对多个因变量之间的关系进行建模 PLS 首先在预测矩阵 X 中找到方向向

5、量 w,用于解释响应矩阵Y 的最大方差,然后通过获得的系数 w 将 X 和 Y 投影到新空间来建立线性回归模型 当预测矩阵的变量比观测值多且观测值 X、Y 之间存在多重共线性时,PLS 回归尤其适用2 因此,PLS 已被广泛应用于化学、经济学、药学、计算机视觉和模式识别等诸多领域3 应用 PLS 回归分析建立的模型是一种多元线性回归模型,要求自变量与因变量间有显著的线性关系,然而在实际应用中,变量之间往往不是严格的线性关系,而是复杂的非线性关系,且在实际数据中需要解决的往往不是单一的线性问题,而是线性和非线性均存在的复杂问题 因此,若还是运用 PLS对非线性问题或复杂问题进行建模,则将得到较低

6、的回归精度,从而限制了 PLS 在非线性领域问题上的应用针对 PLS 对非线性数据不敏感的问题,有许多非线性 PLS 的改进方法被广泛提出 Liu Hongbin等4 使用高斯过程回归(GP)在 PLS 中建立每对潜变量之间的非线性回归,提出一种动态 GP-PLS模型来提高估计能力 尚栋等5 构造不同影响变量的3 次多项式将其加入 PLS 的建模中以近似校正非第 47 卷 第 1 期江西师范大学学报(自然科学版)Vol 47 No 12023 年 1 月Journal of Jiangxi Normal University(Natural Science)Jan 2023线性因素带来的影响,

7、提出一种基于循环变量筛选的非线性 PLS 方法 Ma Hao 等6 将一种由自回归外生模型和径向基函数神经网络组成的新型级联结构作为传统 PLS 方法的内部模型,使新建立的 PLS 方法具有动态和非线性的特性 贾润达等7 和 JiaoJianfang 等8 运用核函数将低维空间的非线性关系映射到高维空间的线性关系,使得 PLS 方法适用于非线性结构 Zhu Bao 等9 和 Wang Yanxia 等10 将人工神经网络与 PLS 集成在一起,实现一种新的鲁棒非线性 PLS 处理非线性和共线性数据的方法 鲁庆华等11 提出了一种基于偏最小二乘回归和多项式回归相结合的多元非线性回归分析方法,该方

8、法通过 PLS 提取的主成分进行多项式回归,实现了PLS 的非线性回归 A Merino 等12 通过增广输入矩阵包含基于知识变量的非线性变换特点,将增广输入矩阵进行 PLS 回归,提出了一种基于知识的递归 PLS 非线性回归方法 李雄威等13 通过相关性分析选取与因变量相关的自变量,然后构建能够表征非线性关系的输入变量,从而得到针对具体问题的非线性表达式,再利用 PLS 方法建立模型得到表达式的系数,提出一种非线性 PLS 模型,但该方法构建的非线性表达式较简单 F B Lavoie 等14 通过约束谢文龙15 提出的 3 次样条分段迭代模型建立非线性关系,再通过 U Indahl16 和

9、F B Lavoie等17 提出的动力修正 PLS 迭代计算更新权重,提出了一种新的鲁棒非线性回归方法 Peng Shan 等18 提出了一种基于分段线性内部关系的非线性偏最小二乘(PLS)切片变换(SLT)模型,该方法使用基于分段线性映射函数的 SLT 构建输入和输出分数向量之间的非线性内部关系以上研究均在一定程度上缓解了 PLS 对非线性数据表现不佳的问题,大多数的非线性 PLS 改进模型均从外部学习数据的非线性特征作为 PLS 输入得到非线性模型,或者将原始特征进行变换,构建特征的拟线性表达式,再构建 PLS 的非线性回归模型 然而,这些方法并未从内部改变 PLS 的线性框架,如提取的成

10、分为原始数据的线性组合,内部采用Pearson 系数衡量自变量和因变量的相关性,以及对提取的成分进行线性回归 针对上述问题,本文基于PLS 的思想提出一种新的回归方法,该方法通过距离方差反映原数据信息,内部采用距离相关系数度量自变量与因变量的相关性,在多元线性回归分析中采用拟线性回归19 方法1融入距离方差和距离相关系数的偏最小二乘回归模型1 1偏最小二乘法(partial least square,PLS)偏最小二乘法20 是集主成分分析、典型相关性分析和多元线性回归分析于一体的多元线性统计分析方法,可以解决多自变量与多因变量之间的建模问题,对于变量间多重相关性和小样本容量问题尤其适用假设一

11、组自变量 X=(x1,x2,xm)和因变量Y=(y1,y2,yn),PLS 首先分别提取自变量第 1主成分 t1和因变量第 1 主成分 u1,提取的条件为方差 D(t1)max,D(u1)max,同时相关系数 r(t1,u1)max;然后将提取的成分 t1和 u1进行线性回归,得到残差矩阵,判断是否满足精度要求,若精度满足,则算法停止,否则,利用残差矩阵提取下一个主成分,不断迭代直到满足精度要求;最后将提取得到的h个主成分t1,t2,th(h m)进行线性回归,构建每个因变量 yn对 t1,t2,th的回归方程,由于提取的主成分均为原始变量的线性组合,因此最终可表达为yn关于原始自变量X=(x

12、1,x2,xm)的回归方程1 2融入距离方差和距离相关系数的偏最小二乘回归算法DVDCCPLS 算法首先将数据进行预处理,再通过距离方差和距离相关系数最大化提取距离成分,最后通过拟线性回归方法对距离成分进行回归,具体的算法构造过程如图 1 所示首先,将原始数据进行标准化得到E、F,再将标准化后的矩阵计算样本间的欧氏距离得到实对称距离矩阵,再将距离矩阵进行中心化得到矩阵 A、B其次,根据距离方差和距离相关系数最大化的要求,分别求取方向向量 wi和 vi得到自变量距离成分ti和因变量距离成分ui,图1 第2 部分D(Awi)和D(Bvi)表示距离方差,r(,)表示距离相关系数;将得到的距离成分进行

13、回归并计算距离残差和交叉有效性系数 Q2h,利用 Q2h判断应提取的距离成分个数,其中 Spress,h和 Sss,h1分别表示预测误差平方和与误差平方和;最终判断模型是否满足精度条件,若是则输出提取的距离成分,若否则利用距离残差继续提取下一个距离成分最后,将提取的距离成分进行拟线性回归,计算拟线性回归方程的回归系数,通过模型求解方法将26江西师范大学学报(自然科学版)2023 年回归方程转换成原始变量 X 和 Y 的表达1 3融入距离方差和距离相关系数的偏最小二乘(DVDCCPLS)回归算法理论流程1 3 1相关定义假设变量 X 和 Y 的第 k 行样本分别被记为Xk、Yk,其中Xp和Yq服

14、从联合分布,则定义原始变量 X 和 Y 对应的距离矩阵的元素分别为akl=(Xk Xl)2,bkl=(Yk Yl)2,即距离矩阵为原始矩阵两两样本间的欧氏距离 将距离矩阵的元素进行中心化处理得 Akl、Bkl图 1融入距离方差和距离相关系数的偏最小二乘算法结构定义118(距离方差)假设变量 X 有 m 个样本点,则距离方差的定义为V2m(X,X)=1m2mk=1ml=1A2kl(1)定义218(距离协方差)假设变量X和Y有m个样本点,则距离协方差的定义为V2m(X,Y)=1m2mk=1ml=1AklBkl定义 318(距离相关系数)变量 X 和 Y 之间的距离相关系数 2m(X,Y)被定义为2

15、m(X,Y)=mk=1ml=1AklBkl/mk=1ml=1A2klmk=1ml=1B2kl,V2m(X,X)V2m(Y,Y)0,0,V2m(X,X)V2m(Y,Y)=01 3 2构建 DVDCCPLS 回归模型1)标准化变量 假设有自变量X=(x1,x2,xq)和因变量Y=(y1,y2,yp),有 m 个样本点,于是构成了自变量与因 变 量 的 观 测 矩 阵 X=(xij)qm和 Y=(ynt)mp,首先将观测值进行标准化得到标准化后的矩阵 E=(eij)qm,F=(fnt)mp2)计算标准化矩阵两两样本间的欧氏距离并进行中心化处理 将标准化矩阵 E、F 分别计算样本间的欧氏距离,得到距离

16、矩阵的元素分别为 akl、bkl,k、l=1,2,m 将距离矩阵每个元素减去所在行的平均值,减去所在列的平均值,再加上距离矩阵 a所有元素的平均值,最终得到中心化后的距离矩阵元素 Akl、Bkl3)令自变量为 A=(A1,A2,Am),其中 Ai(i=1,2,m)表示距离矩阵 A 的第 i 列数据 同理,设因变量为 B=(B1,B2,Bm),其中 Bi(i=1,2,m)表示距离矩阵B的第i列数据,每列有m个样本点4)提取第 1 个距离成分 根据偏最小二乘法的思想,提取距离成分有 2 个要求:(a)携带原始变量信息最多;(b)自变量与因变量之间的相关系数最大,即提取的主成分应满足max(D(t1),max(D(u1),max(r(t1,u1),(2)而 t1、u1分别为变量 A、B 的线性组合,即t1=Aw1,u1=Bv1,w1=1,v1=1(3)结合式(2)和式(3)可以发现,D(Aw1)=wT1w1mk=1ml=1A2kl/m 和 D(Bv1)=vT1v1mk=1ml=1B2kl/m;可以看出mk=1ml=1A2kl/m、mk=1ml=1B2kl/m 分别为向量 X和 Y 的距离方差

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2