1、Application 创新应用160 电子技术 第 52 卷 第 2 期(总第 555 期)2023 年 2 月前广泛应用的低秩矩阵分解方法包括主成分分析、奇异值分解、非负矩阵分解等。1 研究背景由 于 观 测 噪 声 和 数 据 缺 失 情 况 的 存 在,概率的方法被引入到低秩矩阵分解中,在2007年Salakhutdinov1等人提出概率矩阵分解(Probabilitymatrixfactorization,PMF)方法,假设观测值和预测值的误差服从正态分布,常用最大化后验概率求解模型。虽然MAP估计只需要温和的条件就是贝叶斯估计的一个特殊情况,但是它不能很好地代表贝叶斯方法。由于MA
2、P估计是点估计,而贝叶斯方法的特征在于使用分布来总结数据和推论。Salakhutdinov2等人就在20080 引言高维数据在现代社会生活中普遍存在,并且随着信息化技术的发展在不断增长,数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、Web使用数据及多媒体数据等,它们的维度通常可以达到成百上千维,甚至更高。处理高维数据是一个耗时的过程,需要大量的资源,这种高维数据不仅增加了算法的计算开销和内存需求,而且影响了算法在实际应用中的性能。实际应用中收集的高维数据往往包含几个相互相关的变量,这些变量都是潜在特征的组合,近似低秩矩阵分解
3、是提取这些潜在特征的基本方法。目基金项目:福建农林大学科技创新专项课题(CXZX2020105A)。作者简介:潘雨婷,福建农林大学计算机与信息学院,硕士研究生;研究方向:信息技术、智能算法应用。通信作者:滕忠铭,福建农林大学计算机与信息学院,副教授,博士;研究方向:智能算法应用。收稿日期:2022-10-19;修回日期:2023-02-12。摘要:阐述概率矩阵分解(PMF)广泛被应用于预测缺失值和数据聚类,它把观测数据看成是一个基矩阵和权重矩阵的乘积,这可能会降低模型的灵活性。目前常见的是高斯分布为先验的概率模型,但是高斯分布对于异常值比较敏感,而采用t分布先验的模型能减轻异常值的影响,具有更
4、好地稳健性。为了提高模型的灵活性和稳健性,提出了t分布先验的概率矩阵三因式分解(TBMTF),将观测数据看成三个相互约束的潜在特征矩阵的乘积,假设噪声服从t分布,变分贝叶斯推断进行参数估计。相较于传统的PMF方法,TBMTF方法能更好地识别异常值并做出预测。基于人为数据和真实数据的实验表明,在人为数据的预测效果与真实数据中添加噪声后的预测效果,都表现优秀。关键词:概率矩阵三因式分解,t分布,变分贝叶斯,缺失值预测,噪声识别。中图分类号:TP183,TP391.3文章编号:1000-0755(2023)02-0160-04文献引用格式:潘雨婷,林慧钗,滕忠铭.基于t分布的概率矩阵三因式分解方法分
5、析J.电子技术,2023,52(02):160-163.基于t分布的概率矩阵三因式分解方法分析潘雨婷,林慧钗,滕忠铭(福建农林大学,福建 350002)Abstract This paper describes that Probability matrix factorization(PMF),which is widely used to predict missing values and to cluster data,treats the observations as a product of a base matrix and a weight matrix,which may
6、reduce the flexibility of the model.It is common to use Gaussian distribution as a prior,but Gaussian distribution is very sensitive to outliers,and the model with t distribution prior can mitigate the effect of outliers and has better robustness.To improve the flexibility and robustness of the mode
7、l,this paper proposes a probability matrix tri-factorization with t distribution prior(TBMTF),which views the observed data as the product of three mutually constrained potential feature matrices,assumes that the noise obeys the t distribution,and variational Bayesian inference for parameter estimat
8、ion.Compared with the traditional PMF method,the TBMTF method can better identify outliers and make predictions.In this paper,experiments are conducted on both artificial and real data,and the final results show that TBMTF will be better for identifying noisy data and missing predictions.Index Terms
9、 probability matrix tri-factorization,t distribution,variational Bayesian inference,missing value prediction,noise identification.Analysis of Tri-factorization Method of Probability Matrix with t Distribution PriorPAN Yuting,LIN Huichai,TENG Zhongming(Fujian Agricultural and Forestry University,Fuji
10、an 350002,China.)Application 创新应用电子技术 第 52 卷 第 2 期(总第 555 期)2023 年 2 月 161年提出基于蒙特卡洛近似的贝叶斯概率矩阵分解方法(BMF),能达到更好地预测效果。赋予潜在特征高斯-斯威特先验分布,计算模型参数与超参数的边际分布得到观测矩阵预测分布。采用简单的马尔科夫链蒙特卡洛方法,即吉布斯抽样对后验分布采样,求得平均值作为最终收敛分布。矩阵内部间也会存在差异,Lim和Teh3在2007年提出变分贝叶斯概率矩阵分解方法(VBMF),假设潜在特征矩阵中每个列向量具有不同的方差,计算潜在特征矩阵的 函数来近似两个矩阵的后验概率值。对于
11、潜在特征的先验假设,VBMF、PMF和BMF均采用多元高斯先验,没有区分潜在特征的重要性,使得它们在稀疏数据集上表现不佳,同时高斯分布先验不能很好地识别异常值。此外,BMF获得的后验结果的研究也表明,尾部明显比高斯分布重。因此,对于潜在特征的先验,应考虑重尾分布。为此,RBMF4试图假设潜在特征的先验是多元t分布,从而获得了性能的显著提升。但是,RBMF将t分布的均值固定为0,仍然假设噪声是高斯噪声。针对上述问题,提出了一种基于t分布先验的变分贝叶斯矩阵分解方法(TBMF)5。利用t分布同时描述潜在特征和噪声的先验,单变量t分布用于拟合预测噪声,多变量t分布用于假设潜在特征的先验。矩阵分解方法
12、可以看成是对数据矩阵的行或者列进行K-means聚类,不能达到同时对行列进行聚类的目的,有学者提出概率矩阵三因式分解方法(PMF)6,可以自动识别对行进行聚类的类别个数,由此基于不同先验分布的概率矩阵三因式分解方法得到应用7,8。之后也有学者将变分贝叶斯方法引入概率矩阵三因式分解方法中,考虑将分解的三个矩阵U、S、V赋予指数分布先验9。目前关于概率矩阵三因式分解的方法还比较少,为了使三因式分解方法在稀疏表示和噪声数据上表现良好,本文结合TBMF和PMTF方法,将t分布引入概率矩阵三因式分解方法,提出t分布先验的变分贝叶斯三因式矩阵分解方法(TBMTF)。利用t分布描述噪声先验和潜在特征U,V的
13、先验,利用变分贝叶斯方法估计参数,找到最大化后验概率的解。2 TBMTF模型 2.1 t分布 2.2 TBMTF模型3 参数估计本文的目标是根据参数和潜在特征的先验分布,得到参数和潜在特征的后验分布以此近似得到预测矩阵X*。由于存在较多的超参数,MAP和传统EM算法都不能很好地得到分解矩阵的后验分布,本文采用变分贝叶斯方法10近似不可观测变量的后验分布。由于三因式分解中变分贝叶斯求解需要考虑不同变量间的协方差11,为了方便计算,本文选择单个变量进行计算,根据Q函数式(3)计算得到的U,V的后验分布为正态分布,S的后验分布为截尾正态分布。Application 创新应用162 电子技术 第 52
14、 卷 第 2 期(总第 555 期)2023 年 2 月(4)(5)4 数值实验为了验证本文提出的TBMTF算法对于数据预测的优越性,在人造数据上进行缺失值预测,在真实数据集上添加不同噪声比噪声进行预测,与NBMTF(正态分布为先验分布)算法进行对比,评估指标选取MSE,计算为式(7)。(7)4.1 人为数据实验本文根据式(2)构造100100的数据矩阵X,其中U,V,E的值取均值为0,方差为1的正态分布随机数,S取方差为1的指数分布随机数。选取不同数据缺失程度对数据进行预测。图1显示的是不同数据缺失情况下,TBMTF和NBMTF算法的预测效果,MSE随着缺失百分比的增加而增加。随着缺失值百分
15、比的增加,两个算法的MSE值都在增长,图1明显看到TBNMTF算法的MSE值在稳步的增长,呈现出指数函数趋势,而NBMTF算法不够稳定,MSE的值在来回波动,并且都要比分布先验的值大。4.2 真实数据实验在这个实验中,选择癌症药物敏感性基因组数据(GDSC)12,数据包括622种药物和138个基因水平共有81%的可观测值。图1 基于不同缺失百分比的TBMTF和NBMTF预测结果Application 创新应用电子技术 第 52 卷 第 2 期(总第 555 期)2023 年 2 月 163图2显示的是在数据集GDSC上两种算法的MSE值,随着噪声百分比增大,MSE的值也在增大。可以看出TBMT
16、F算法在不同噪声百分比下的MSE值都比NBMTF算法的低很多,说明t分布先验能更加稳健地识别出数据中的噪声,对存在噪声的数据能更好地进行预测。5 结语本文将t分布引入到概率矩阵分解中,与变分贝叶斯方法相结合,提出了TBMTF模型来解决数据预测问题。TBMTF模型假设观测数据与预测数据的误差服从单变量t分布,这使得模型对异常值具有鲁棒性。此外,假设分解的基矩阵 服从多元t分布,而不再采用高斯分布作为先验假设来表示潜在变量,这使得模型能区分有信息和无信息的潜在特征。更重要的是,与NBMTF模型相比,TBMTF能更好地预测数据和识别异常值。参考文献1Salakhutdinov R.Probabilistic MatrixF a c t o r i z a t i o n C .I n t e r n a t i o n a lConference on Machine Learning,ACM,2007.2Salakhutdinov R R,MnihA.BayesianProbabilistic Matrix Factorizationusing Markov Chain Monte Mar