1、 基于概念分解的显隐空间协同多视图聚类算法胡素婷 沈宗鑫 黄倩倩,黄雁勇摘 要 多视图聚类通过整合不同视图的特征以提升聚类性能现有的多视图聚类更多地关注数据不同的低维表示方式和其在隐式空间的几何结构,而忽略数据样本在不同空间的结构关系,未同时考虑不同空间的聚类为此,文中提出基于概念分解的显隐空间协同多视图聚类算法首先,通过概念分解获取不同视图在隐式空间中的一个共同的低维特征表示,并利用图拉普拉斯正则化约束保持原始数据的局部结构不变然后,将数据在显式空间中的聚类和隐式空间中的聚类整合到一个共同的框架中,进行协同学习和优化,得到最终的聚类结果在 个真实数据集上的实验表明文中算法性能较优关键词 多视
2、图聚类,协同训练,概念分解,拉普拉斯正则化引用格式 胡素婷,沈宗鑫,黄倩倩,黄雁勇基于概念分解的显隐空间协同多视图聚类算法模式识别与人工智能,():中图法分类号 ,():收稿日期:;录用日期:,;,本文责任编委 陈恩红 教育部人文社会科学研究青年基金项目()资助 ()西南财经大学 统计学院 成都 西南交通大学 计算机与人工智能学院 成都 西南民族大学 计算机科学与工程学院 成都 ,第 卷 第 期模式识别与人工智能 年 月 随着信息技术的蓬勃发展,数据来源与数据处理方式变得更加复杂多样例如:不同新闻机构以各自的方式报道同一篇新闻;一个网页可分别使用文本和超链接表示;由音、视频组成的多媒体内容这些
3、数据在不同的特征空间中,从不同的角度揭示事物不同的属性,称为多视图数据随着多视图数据的爆炸式增长,多视图聚类成为大数据挖掘中一个重要的研究方向多视图聚类最优整合不同视图之间的特征信息,将每条数据聚到不同的簇中近年来,学者们相继提出多种多视图聚类算法,大致可分为三类:多视图协同聚类算法()、多视图多核聚类算法()和多视图子空间聚类算法()多视图协同聚类算法采用协同训练的策略处理多视图数据 等提出,基于(,),采用协同聚类的思想同时最小化每个视图的模糊划分,同时假定无论视图如何,每个数据最终都会被分配到同一个集群中 等采用协同训练的思想,在谱聚类的框架中使用来自彼此的信息引导不同视图的聚类,最终得
4、到多视图聚类结果多视图多核聚类算法利用核方法将数据的原始特征映射到更高维空间中进行聚类 等提出基于核的多视图聚类算法,每个视图都被表示为一个给定的核,所有的核都被加权组合 等在核空间中学习相似关系,并为每个视图自动分配权重 等提出(),引入共识核矩阵的低秩替代和稀疏误差矩阵,探究 特征空间潜在的全局结构,同时基于谱图理论保持样本之间的局部结构多视图子空间聚类算法将高维数据投影到低维子空间中,然后在潜在的子空间中对数据点进行聚类划分此类算法可保持数据的内在特性,减少无关特征的影响近年来,由于非负矩阵分解(,)在处理高维数据上的优势和可解释性,基于 的多视图子空间聚类算法获得研究者们的注意力 等将
5、 拓展到多视图聚类的情况,提出(),通过 探索每个视图的底层聚类结构,并学习一个共同的聚类指示矩阵,使每个视图的聚类结构保持一致 等在低维空间上引入相关约束,学习不同视图共享的一种隐式表示 等提出 (),在每个视图上进行,线性组合的一致流形和一致系数矩阵与多流形正则化结合,保留多个隐式空间的局部几何结构 等提出(),考虑特征之间的高阶关系,使用一阶关系和二阶关系获得最优的邻域结构上述基于 的多视图聚类算法虽然从保持多视图数据局部结构的角度出发,获得良好的聚类性能,却将多视图数据在显式空间和隐式空间中的聚类看作是两个相互独立的过程由于在多视图聚类中,每个视图包含的判别性信息和所有视图潜在的一致性
6、信息对于聚类来说都是至关重要的,因此,如何有效结合多视图数据在隐式空间中的一致性信息和显示空间中的判别性信息是一个具有挑战性的问题为此,等提出(),同时探索多视图数据在显式空间和隐式空间中的信息,将隐式空间中的聚类与显式空间中的聚类整合到一个协同训练框架中,获得最终的聚类结果然而,该方法未能充分考虑多视图数据的内在几何结构,性能受到一定限制此外,的前提假设是输入样本数据是非负的,这在现实场景中往往不能被满足,因此利用 提取隐空间信息的方法在现实应用中存在局限性为了解决上述问题,本文基于协同训练和子空间聚类的思想,提出基于概念分解(,)的显隐空间协同多视图聚类算法(,)具体地,引入,避免 只能处
7、理非负数据的局限性,同时综合考虑数据样本在显式空间和隐式空间的关系,在保持数据局部结构关系的同时,将数据样本在显式空间中的聚类和隐式空间中的聚类整合到一个协同训练框架中此外,基于极大熵的思想实现视图权重的自适应学习最后,为了验证 的有效性,在 个真实世界的数据集上进行实验,结果表明 的性能较优基础知识 非负矩阵分解矩阵分解在聚类中被广泛应用,常见的是 将一个原始的非负数据矩阵分解成两个非负子矩阵第 期 胡素婷等:基于概念分解的显隐空间协同多视图聚类算法对于任意给定的一个非负数据矩阵 ,的每列表示一个数据样本,一共有 个样本,每个样本由 维特征组成通过 将其分解为维数相对较低的基矩阵 和系数矩阵
8、 ,使得 ,分解之后的特征维度为,远小于和的损失函数相当于解决如下最小化残差问题:,其中矩阵的 表示 范数更新迭代规则如下:()(),()()数据的每个样本点可近似表示为每个列向量的加权线性组合:,()其中 为矩阵 的第 列概念分解在现实应用中,数据往往不能被保证是非负的 等在 的基础上进行拓展,提出概念分解()算法,解决上述问题,使算法可以作用在任何数据空间在概念分解算法中,每个样本数据点表示成聚类中心的线性组合,同时聚类中心又表示成各个聚类数据点的线性组合的基向量(在概念分解中称为概念向量)可表示为每个样本数据 的非负线性组合,为关联权重,则 ()式()表示样本数据点 和概念 的关联程度结
9、合式(),得到概念分解对应的优化问题:,()利用乘法更新法则求解式(),得()(),()(),其中 基于概念分解的显隐空间协同多视图聚类算法本文提出基于概念分解的显隐空间协同多视图聚类算法(),不仅利用数据样本显式空间的所有视图信息,还利用降维之后隐式空间的信息基于高维相似,低维也相似的基本假设,在显式空间和隐式空间中协同聚类,最终得到一个聚类的共识同时,在各个视图上引入熵加权的策略,使算法能够有效降低聚类特性较差的视图对迭代优化的干扰,得到更理想的视图权重划分,从而提升算法的有效性和鲁棒性模型构建任意给定的一个多视图数据集 ,第 个视图下的数据矩阵,其中,为第 个视图下的数据特征维度,为数据
10、集中数据样本的数目,为视图总数多视图数据不同视图之间存在一致性信息和互补性信息根据高维相似,低维也相似的基本假设,通过合理的方式将多视图数据从高维空间映射到低维特征空间时可以有效保留这些信息那么,可在映射过程中直接得到多个视图之间的一致性信息传统的多视图概念分解方法以矩阵的形式将数据映射到低维空间,对于每个视图,数据样本被分解为该视图对应的关联矩阵 和系数矩阵 ,使得 然而,这样的分解方式将数据在每个视图下的分解独立,孤立各个视图的关系,忽略各个视图之间存在的一致性信息为了利用不同视图之间的一致性信息,在提取隐式空间的同时捕获一个共识的特征表示具体地,结合概念分解误差式(),重构多视图概念分解
11、误差项,在多个视图之间得到一个共识的低维特征表示,即 ,表达式为,其中,关联矩阵 ,投影矩阵 为数据样本在基向量上的投影值,所在的空间表示为隐式空间在提取隐式空间时,保持相似结构可以使提取模式识别与人工智能()第 卷的隐式空间更大程度地保留显式空间中的有用信息基于流形假设,对投影矩阵加入图拉普拉斯正则项约束,保持样本数据在隐式空间中的局部几何结构近似不变原始数据样本在隐式空间的特征表示应该是近似的,即 ()()()(),其中,为拉普拉斯矩阵,()(),为对角矩阵,为原始数据样本的亲和矩阵因此,多视图概念分解如下:()()为了充分考虑多视图数据中各个特征的影响,本文对显式空间的各个视图的特征进行
12、串联拼接,构造数据样本的亲和矩阵 单视图 算法的基本思想是最小化数据集到所属类中心的误差平方和在数据样本的显式空间中使用多视图 聚类可表示为 ,()其中,为第 个视图下的第 个样本数据,为显式空间中第 个视图下的第 个聚类中心,为第 个视图的视图权重如果第个视图下的数据属于第个类,那么,否则 在隐式空间中使用单视图 聚类可表示为 ,()其中 为隐式空间中的第 个聚类中心综合式()式(),在保持局部几何结构不变的同时考虑多视图数据在显、隐空间的结构关系,协同训练得到一个共同的聚类表示:()(),()真实数据中各个视图的重要性不一样,有的视图因为有更显著的作用,所以应该被赋予更高的权重但是人为给定
13、每个视图的权重,不仅使视图分配具有很大的主观性,而且增加工作量于是,考虑基于信息熵的加权策略,通过熵的最大化,在迭代优化过程自动为每个视图分配权重将视图权重系数 ,看作概率分布,则加权项表示为(),()其中,控制视图加权的力度在式()达到最优的同时,使信息熵(式()尽可能地大,得到最终的目标函数:(,)()(),()模型优化目标函数式()中 有 个变量需要求解单独求解每个变量的子优化问题的过程如下)固定和,求解 和当其它变量固定时,目标函数分别关于聚类中心 和求偏导,令结果为,得 ,()固定,和,求解当其它变量固定时,寻找显式空间中原始数据样本和隐式空间中共享的低维特征表示矩阵分别到各自聚类中
14、心的加权距离最小值的和:第 期 胡素婷等:基于概念分解的显隐空间协同多视图聚类算法 ()()(),()其中,如果第(,)个样本数据属于第()类,则隶属度 ,否则 )固定,和,求解 和 当固定,和时,提取与和有关的项,目标函数等价于:(,)()()根据矩阵性质,对式()进行求迹的转化,表示为(,)()()()()当固定 或 时,(,)对于另外一个变量是凸的,因此可以采用迭代更新的方法求解分别引入拉格朗日乘子,则(,)的拉格朗日函数为(,)(,)()()(,)对 求偏导:(,)()()(,)对 求偏导:(,)()()()()使用()条件,有,其中()表示对应位置元素相乘最终得到 和 的更新公式:(
15、)(),(),()其中,在 的更新公式()中记 ()(),()()固定,和,求解当其它变量固定时,根据约束条件 ,可建立拉格朗日函数:()()()()对 求偏导,结果为,得 ()(),()其中 基于上述求解过程,的详细步骤如算法 所示算法 输入 多视图数据集 ,收敛阈值,最大迭代次数,聚类数(),参数,低维特征表示矩阵维度参数 输出 根据指示矩阵 得到最终聚类结果 将 各视图特征串联拼接,构造亲和矩阵 初始化聚类指示矩阵,随机初始化,模式识别与人工智能()第 卷 对每个视图,执行 根据式()更新 和 根据式()更新 根据式()更新 根据式()更新 根据式()更新 当目标函数()()或迭代次数达
16、到最大迭代次数 时,停止迭代,否则,执行 收敛性与时间复杂度分析算法 的收敛性取决于 个迭代子步骤具体地,在更新、时,其对应的每个子问题都是凸的,并且本文得到每个子问题的闭式解,因此可以保证它们的收敛性此外,与文献 类似,在更新 和 时,容易利用二阶泰勒近似得到式()的辅助函数,然后证明其收敛性综上所述,虽然本文提出的目标函数不是关于所有变量的联合凸函数,但本文采用的迭代优化算法能保证其收敛在实验部分,本文将在真实数据集上绘制优化过程中目标函数的收敛曲线,进一步说明算法 的收敛性令数据视图个数为,样本数为,特征数为,子空间维度为,聚类数为 那么:更新 和 的计算复杂度分别为()和();更新的计算复杂度为();更新 的计算复杂度为();更新 的计算复杂度为();更新 的计算复杂度为()则 总的计算复杂度为()实验及结果分析实验设置实验数据集本文实验采用 个真实世界的多视图数据集,数据集的详细信息如表 所示本文 在、和 数据集上进行对比实验,验证 的有效性具体地,、数据集是手写数据集 的子集,数据集由视图 和 构成,而 数据集由视图 和 构成 数据集是图像数据集的一个子集,包含 个实例与