基于多通道图卷积网络的节点聚类

资源描述

1、第卷第期年月北京工业大学学报基于多通道图卷积网络的节点聚类孙艳丰，杜鹏飞（北京工业大学信息学部，北京；北京工业大学多媒体与智能软件技术北京市重点实验室，北京）摘要：针对在深度聚类中大部分基于图卷积网络（，）的方法仅使用拓扑图而忽略了特征空间中存在的结构信息的问题，提出一种通过引入特征图更充分地利用特征空间中存在的结构信息的节点聚类方法首先，该方法使用自动编码器（，）来学习节点特征的潜在表示，同时在特征图、拓扑图及节点属性个层面获得节点嵌入；然后，使用融合机制对学习到的节点嵌入进行融合；最后，通过自监督的方式训练网络实现节点聚类在个基准数据集上的大量实验表明，该方法明显提高

2、了聚类精度关键词：节点聚类；图卷积网络（，）；注意力机制；自动编码器（，）；特征融合；图结构中图分类号：文献标志码：文章编号：（）：收稿日期：；修回日期：基金项目：国家自然科学基金资助项目（）作者简介：孙艳丰（），女，教授，博士生导师，主要从事人工智能、模式识别、深度学习方面的研究，：，（，；，）：（），（），：；（）；（）；聚类是数据分析的一项基本任务，将样本按照相似性关系分到不同的类别中最近，由于深度网络所展现出的强大的数据表示学习能力，应用深度网络来解决聚类问题受到人们的关注目北京工业大学学报年前，一些深度聚类算法已经成功地在各种实际中进行应用，例如文本聚类、图像聚类

3、等挖掘数据原始特征空间中的属性信息以获得有判别力的数据表示是深度聚类中的一个关键步骤，例如：等通过自动编码器（，）网络驱动表征学习；等提出了深度编码聚类（，）方法，将原始数据空间经过参数化非线性映射到低维特征空间，在低维特征空间优化聚类目标来学习节点表示；等提出了改进的通过保持局部结构进行聚类的网络，该网络引入了重构损失、融合聚类损失和的重构损失，从而学习到具有局部结构约束的特征然而，这些模型只是针对结构化的数据学习原始节点属性信息，在处理非结构化的图关系数据聚类时表现不佳针对图结构数据的聚类问题，最近的研究工作集中于学习图拓扑结构的编码表示，将图拓扑结构与原始节点属性更好地结合新兴的

4、图卷积网络（，）给这一工作带来了巨大的突破基于图的拓扑结构和节点属性信息，通过聚合来自相邻节点的特征迭代更新节点编码在此基础上，等提出了图自动编码器（，）和变分图自动编码器（，），利用作为编码器获得节点的表示，使学习到的表示符合高斯先验分布；等提出了一种利用高阶图卷积自适应地捕获全局结构信息来学习节点表示的方法；等使用图注意力融合网络作为编码器来融合图结构信息和节点属性；等进一步提出了一种对抗性正则化图自动编码器（，）用于学习潜在的节点表示；等提出了深度结构化聚类网络（，），利用深度和分别学习节点属性信息和图结构信息表示，并通过自监督机制将它们集成到一个统一的框架中等提出了注意力驱

5、动的图聚类网络（，），将图结构信息和节点属性信息通过注意力机制进行融合以获得更利于聚类的节点表示现有的方法都是从原始图结构和节点特征中学习优质的嵌入表示，然而，原始的图结构关系由于数据噪声或度量的不准确可能导致关系描述不精确另外，有研究表明，在从图拓扑信息和节点属性信息中学习嵌入表示时表现出来的性能并不是特别令人满意，因此，如何获得更准确的嵌入表示是一个关键问题针对以上提出的不足之处，本文提出一种深度聚类网络，即基于多通道图卷积网络（，）的节点聚类的节点聚类模型.符号定义及任务说明首先介绍一些符号及概念，属性图可以表示为，其中：是节点集合；是边集合；是节点的属性矩阵，表示节点数，表示特征

6、的维数图的邻接矩阵表示为，如果和之间有边，则，否则为给定一个图和聚类数，属性图聚类的目的是把图中的节点划分到个不相交的簇中任务说明如图所示，黄色和蓝色分别表示种类别的节点，聚类模型根据拓扑信息和特征信息将它们分到个簇中图属性图聚类示例 .整体框架对于图数据集，本文把原始的拓扑图结构称为拓扑图，把基于节点特征相似度通过近邻（，）算法构建的图结构称为特征图然后，使用提取节点特征的数据表示，使用从拓扑图和特征图中提取图的数据表示，以便在不同的空间学习嵌入表示最后，通过一个自适应融合模块将个通道得到的节点编码进行融合此外，采用了自监督机制和编码之间的差异性约束来监督

7、训练过程，模型整体框架如图所示.节点特征的编码模块不考虑节点之间的连接关系，只考虑节点的特征，将节点特征嵌入到低维空间有很多方法，如去噪自动编码器（，）、稀疏自动编码器（，）、变分自动编码器（，）等本文使用最基本的，其主要由个部分组成，即将输入映射到中间层表示的编码器以及将中间层映射到输出的解码器，通过最小化原始特征与重构特征之间的第期孙艳丰，等：基于多通道图卷积网络的节点聚类图多通道图卷积聚类网络结构重构损失来学习编码表示它的编码、解码和重构损失公式分别可以表示为（）（）（）（）（）（）（）（）（）（）（）（）式中：（）、（）分别表示编码器和解码器第层的输出；表示原始特征；

8、表示原始特征重构后的结果；（）、（）分别表示编码器第层的权重和偏置；（）、（）分别表示解码器第层的权重和偏置；表示激活函数，如、等；表示节点特征的重构损失，目的是使从解码器变换后的数据中恢复出来的数据与原始数据更接近，如图所示模块的输入为的节点特征编码器部分.图结构的编码模块的目标是根据节点特征和图邻接关系学习图的低维节点嵌入近年来，在处理图数据上表现出来的性能得到了广泛的认可，基本思想是根据邻接关系聚合邻居节点的特征信息，通过堆叠多层的图网络学习更深层次的表示给定一个节点特征矩阵和邻接矩阵，通过和生成新的节点表示，第层输出可以表示为（）（?（）（）（）式中：?；（）

9、是一个激活函数；?表示度矩阵，?；（）表示第层的可学习参数矩阵；（）表示第层学习到的数据表示，（）对于图数据，原始图关系可能存在误差，使得通过原始拓扑图和节点特征得到的嵌入表示并不是令人满意的，因此，使用节点之间的特征相似度构建特征图，拓扑图和特征图同时被用来提取图数据的嵌入表示这种方法可更充分地从特征空间中挖掘可靠信息另外，为了使算法能够适应非图数据，采用不同值下算法生成的邻接关系来表示拓扑图和特征图.融合模块如何融合这些来自不同通道的节点编码是一个挑战，常用的方法有加权求和、拼接和注意力机制等为了充分融合由和得到的嵌入表示，采用了一种基于注意力的动态融合机制，使得上述

10、个通道得到的节点表示充分交互具体的图示如图所示，首先将来自个通道的嵌入表示（，）两两加权求和进行初步融合，得到个新的嵌入表示（，），融合规则用公式表示为（）（）（）（）式中、表示融合的超参数之后，对、应用注意力机制以实现自适应融合，通过全连接层挖掘不同表示之间的关系，使用（）激活函数，并且进行归一化，将得到的每个嵌入表示系数与对应的嵌入表示加权求和，得到融北京工业大学学报年合之后的嵌入表示融合规则的公式为（）（）（）（）（）c（c）（）式中：表示把待融合的嵌入表示（，）拼接到一起；、均为全连接层的权重；为偏置；表示嵌入表示的融合系数；为对系

11、数归一化的结果由此可以得到最终的融合表示，将融合后的表示通过函数得到个样本属于个簇的概率分布，这一过程用公式表述为（）（）对网络训练后，可以通过得到预测的簇标签，公式为（）式中：表示第个样本预测的簇标签；表示的第个样本由于特征空间的图结构是通过算法从原始节点属性生成的，为了充分挖掘特征空间的信息，应训练编码器在节点属性空间和特征图空间学习到有差异的嵌入表示，同时也约束节点属性空间和拓扑图空间的嵌入表示有差异性为此，本文使用希尔伯特施密特独立性准则（，）进行约束是一种基于核的独立性度量方法，主要功能是衡量个变量的分布差异，其公式可以描述为（，）（）（）（）（，）

12、（）（）（）式中：、为矩阵，（，），（，）；，为一个单位矩阵，为一个全的列向量同理，经过此约束项可以使个层面的嵌入表示更具差异性，从而包含更丰富的信息，如图中编码器模块输出部分的黑色虚线标注所示.自监督模块获得融合的嵌入表示后，借鉴文献中的策略，对融合后的嵌入表示增加约束，以便更好地实现聚类任务，这也成为现在许多深度聚类方法中实现聚类的最常用策略其详细过程如下：首先，使用分布作为核来度量由学习到的嵌入表示中第个样本和第个聚类质心之间的相似性，计算公式为（，）（，）（）式中：表示样本，分配到聚类中心的概率；，表示学习到的嵌入表示的第个样本；是通过对进行计算得到的聚

13、类中心；表示自由度，是一个超参数，本文实验中设置为对每个样本进行计算，得到所有样本分配分布，称之为聚类软分配分布为了增加聚类的内聚力，使的数据表示更接近聚类中心，求得的归一化分布为（）最后，为了使融合后的分布与融合前的分布相一致，在目标分布的协助下通过优化融合后的嵌入表示分布与学习到的嵌入表示分布之间的（）散度达到这一目的，在此使用了个约束项（）（）（）（）（）（）式中（）、（）分别表示聚类软分配分布和融合后嵌入表示分布与归一化分布之间的散度通过最小化式（）（）可以使融合后的分布和融合前的分布很好地对齐，由于是通过生成的，而又反过来监督的更新，整个过程中

14、没有人为的引导，因此，称为自监督方式、和之间的约束正则项如图中红色虚线标注所示本文通过这一监督方法把和整合到一个网络中，实现端到端的训练在对网络进行训练之后，通过融合后的表示分布可以直接得到预测聚类结果，最终，整个网络的损失函数设计为（）（）（，）（，）（）式中：表示的重构损失；（，）、（，）分别表示对节点属性与特征图和拓扑图编码得到的嵌入表示之间的差异性损失第期孙艳丰，等：基于多通道图卷积网络的节点聚类整个模型的算法步骤如下输入：原始数据，邻接矩阵，聚类簇数，迭代次数通过计算特征图结构，得到初始化和的权重：通过式（）（）得到和学习到的嵌入表示、通过式（）（

15、）对表示进行融合，得到融合后样本的分布通过式（）（）计算的样本分布和通过式（）（）最小化与、的散度通过式（）计算全部的损失并反向传播更新参数输出：通过式（）计算聚类结果实验.实验数据本文在个常用的基准数据集上进行了实验，包括个图像数据集、个人类活动识别记录数据集、个文本数据集和个图数据集、，数据集的简要描述如表所示表数据集描述数据集样本数类别数样本维度数据集包括个灰度手写数字图像，共个类别（即）数据集包含智能手表的条传感器记录样本被划分为类人类活动（骑自行车、坐、站、走、上楼梯和下楼梯）数据集包含大约万篇英语新闻故事，并按类别进行标记使用公司

16、工业、政府社会、市场和经济作为标签数据集是来自数字图书馆的一个论文网络数据集，其中边表示同一作者撰写特征是关键词的词袋表示样本按照研究领域分成类（数据库、无线通信、数据挖掘）数据集是一个作者网络数据集节点表示作者，边表示作者合作完成的论文作者分为个领域：数据库、数据挖掘、机器学习和信息检索数据集是一个引文网络数据集，包含每个文档的稀疏词汇特征向量包和文档之间的引文链接列表标签包含个领域：代理、人工智能、数据库、信息检索、机器语言和人机交互.对比方法本文将提出的方法与种方法进行了对比，其中前种是基于的非图数据聚类方法，后种是基于的图数据聚类方法）方法：对从原始数据中学习到的嵌入表示执行聚类）方法：在上述方法基础上加入约束项，将编码器学习嵌入表示和聚类分配两部分联合后进行优化，不再把两部分割裂开，从而提高聚类）方法：在上增加了一个自编码器的重构损失以更好地学习嵌入表示，提高聚类效果）方法：结合和设计，用于学习数据表示）方法：在的基础上，从原始数据中学习到一个分布，从这个分布中采样一组数据作为嵌入表示进行聚类）方法：使用网络来学习嵌入表示

展开阅读全文

基于多通道图卷积网络的节点聚类_孙艳丰.pdf