基于多通道图卷积自编码器的图表示学习

资源描述

1、第 49卷第 2期2023年 2月Computer Engineering 计算机工程基于多通道图卷积自编码器的图表示学习袁立宁1，胡皓1，刘钊2（1.中国人民公安大学信息网络安全学院，北京 100038；2.中国人民公安大学研究生院，北京 100038）摘要：针对基于图卷积的自编码器模型对原始图属性和拓扑信息的保留能力有限、无法学习结构和属性之间深度关联信息等问题，提出基于多通道图卷积自编码器的图表示学习模型。设计拓扑和属性信息保留能力实验，验证了基于图卷积的自编码器模型具备保留节点属性和拓扑结构信息的能力。构建特定信息卷积编码器和一致信息卷积编码器，提取图的属性空间特征、拓扑空间特征

2、以及两者关联特征，生成属性嵌入、拓扑嵌入和一致性嵌入，同时建立与编码器对称的卷积解码器，还原编码器过程。使用重构损失、局部约束和一致性约束，优化各编码器生成的低维嵌入表示。最终将蕴含不同图信息的多种嵌入进行融合，生成各节点的嵌入表示。实验结果表明，该模型在 BlogCatalog和 Flickr数据集上节点分类的 Micro-F1和 Macro-F1明显高于基线模型，在 Citeseer数据集上节点聚类的精度和归一化互信息相比于表现最优的基线模型提升了 11.84%和 34.03%。上述实验结果证明了该模型采用的多通道方式能够在低维嵌入中保留更丰富的图信息，提升图机器学习任务的性能表现。关键词

3、：图表示学习；图卷积网络；自编码器；节点分类；节点聚类开放科学（资源服务）标志码（OSID）：中文引用格式：袁立宁，胡皓，刘钊.基于多通道图卷积自编码器的图表示学习 J.计算机工程，2023，49（2）：150-160，174.英文引用格式：YUAN L N，HU H，LIU Z.Graph representation learning based on multi-channel graph convolutional autoencoders J.Computer Engineering，2023，49（2）：150-160，174.Graph Representation Learni

4、ng Based on Multi-Channel Graph Convolutional AutoencodersYUAN Lining1，HU Hao1，LIU Zhao2（1.School of Information Cyber Security，Peoples Public Security University of China，Beijing 100038，China；2.Graduate School，Peoples Public Security University of China，Beijing 100038，China）【Abstract】This study pro

5、poses a graph representation learning model based on multi-channel graph convolutional autoencoders to address the limited ability of graph convolutional autoencoders in fusing node attributes and graph topology，and their inability to learn deep associations between node attributes.First，design topo

6、logy and attribute information retention capability experiments are designed to verify the ability of a graph convolutional autoencoder in retaining node attribute and topological structure information.Second，specific and consensus convolutional encoders are designed to extract attribute-and topolog

7、y-space features and their association，as well as to generate attribute，topology，and consensus embeddings.Third，convolutional decoders symmetric to the encoders are designed for recovering the encoder process.Fourth，reconstruction loss，local and consensus constraints are introduced to optimize low-d

8、imensional embeddings generated by different encoders.Finally，multiple embeddings that contain different graph information are fused to generate an embedding representation for each node.The proposed model performs better than the baseline models in terms of node classification and node clustering.I

9、ts Micro-F1 and Macro-F1 for node classification are significantly higher than those of the baseline models of the BlogCatalog and Flickr datasets.Meanwhile，its Clustering Accuracy（Cluster-Acc）and Normalized Mutual Information（NMI）for node clustering on the Citeseer dataset are 11.84%and 34.03%highe

10、r，respectively，than the best-performing baseline model.The results show that the multi-channel approach adopted in the proposed model can retain richer graph information in low-dimensional embedding and improve downstream task performance.【Key words】graph representation learning；Graph Convolution Ne

11、twork（GCN）；autoencoder；node classification；node clusteringDOI：10.19678/j.issn.1000-3428.0063898基金项目：国家重点研发计划“基于大数据技术文物安全综合信息应用平台关键技术研究”（2020YFC1522600）；中央高校基本科研业务费专项资金“视频中显著物体检测研究方法”（2019JKF425）。作者简介：袁立宁（1995），男，硕士研究生，主研方向为机器学习、图神经网络；胡皓，硕士研究生；刘钊（通信作者），讲师、博士。收稿日期：2022-02-12 修回日期：2022-03-22 Email：人工智能

12、与模式识别文章编号：1000-3428（2023）02-0150-11 文献标志码：A 中图分类号：TP183第 49卷第 2期袁立宁，胡皓，刘钊：基于多通道图卷积自编码器的图表示学习0概述在现实世界中，图被广泛用于表示实体和实体间的关系，例如分子结构、通信网络、社交网络和犯罪网络等。从图数据中提取信息，用于节点分类1、节点聚类2、可视化3等下游任务具有重要的研究意义。但是，图作为非欧氏数据，蕴含的信息往往具有高维隐式特性，这导致卷积神经网络和循环神经网络等针对欧氏数据设计的深度学习模型很难直接应用。因此，将图数据从非欧氏空间转换到欧氏空间是处理和分析图数据的基础和关键。图表示学习，也称图

13、嵌入，是将图中节点转换为保留原始图关键信息的低维节点向量，从而实现非欧氏数据到欧氏数据的转换。按照提取图信息的不同，图表示学习模型可分为基于图结构的方法和基于图特征的方法。基于图结构的方法仅使用拓扑结构生成节点表示。例如，Deepwalk4使用随机游走采样图的拓扑结构生成节点序列，通过Skip-Gram5最大化序列中窗口范围内节点之间的共现概率，生成低维嵌入。Node2Vec6在 Deepwalk的基础上，引入有偏的随机游走，增加邻域搜索的灵活性，生成质量更高、信息更丰富的嵌入表示。结构深度网络嵌入（Structural Deep Network Embedding，SDNE）7

14、使用最简单的线性全连接层构建多层欠完备自编码器对图数据进行降维，同时引入拉普拉斯特征映射（Laplacian Eigenmaps，LE）8保留一阶相似度信息，增大非零项重构损失保留二阶相似度信息，使生成嵌入同时保留局部结构信息和全局结构信息。由于上述方法只是针对图拓扑结构的单一表示学习，缺乏对节点属性信息的提取，因此限制了模型在属性图上的表示能力。基于图特征的方法同时使用图的拓扑结构和节点属性生成节点表示。深度属性网络嵌入（Deep Attributed Network Embedding，DANE）9在 SDNE的基础上，增加了属性信息自编码器，生成节点属性向量。为了在低维嵌入中保留拓扑结构

15、和属性信息，DANE 将属性向量和拓扑向量进行拼接。由于SDNE 和 DANE 使用最简单的线性编码器，难以有效捕获图的高阶非线性信息，限制了模型的表示能力。图神经网络（Graph Neural Network，GNN）10通过特征传播聚合邻域信息，解决了属性和拓扑融合问题。例如，图卷积网络（Graph Convolutional Network，GCN）11使用卷积运算迭代地聚合节点邻域向量，同时使用当前和先前迭代中的表示生成下一时刻的表示。在多次迭代后，GCN 学习到的节点表示能够同时表征属性和拓扑信息。图注意力网络（Graph Attention

16、Network，GAT）12在原始 GCN 上使用注意力机制，对邻近节点特征向量加权求和，分配不同的权值，构建图注意力卷积核。变分图自编码器（Variational Graph Autoencoder，VGAE）13以变分自编码器（Variational Autoencoder，VAE）14为基础架构，使用 GCN 编码器和内积解码器生成低维表示。GALA15采用完全对称的图卷积编码器和解码器生成低维表示。相较于仅使用 GCN 编码器的VGAE，GALA的对称结构能够同时在编码和解码过程中使用结构信息。基于 GCN 强大的表示能力，众多图分析任务性能显著提升。但近期研究表明，GCN融合节点属性和拓扑结构的能力是有限的。LI等16证明了 GCN 仅是对节点属性执行拉普拉斯平滑使节点逐渐收敛，使得 GCN 无法学习结构和属性之间的深度关联信息。WANG等17分别在拓扑图和属性图上传播节点特征，同时采用半监督的方式进行训练，改善了节点属性和拓扑结构信息的融合。本文在上述工作的基础上，提出基于多通道图卷积自编码器的无监督图嵌入模型 MC-GCAE。通过构建特定信息卷积编码器和一致信息卷积编码器

展开阅读全文

基于多通道图卷积自编码器的图表示学习_袁立宁.pdf