1、第 59 卷 第 1 期2023 年 1 月南京大学学报(自然科学)(NATURAL SCIENCE)Vol.59,No.1Jan.,2023JOURNAL OF NANJING UNIVERSITY基于卷积图神经网络的多粒度表示学习框架张蕾1,2,钱峰1,2,赵姝1*,陈洁1,杨雪洁3,张燕平1(1.安徽大学计算机科学与技术学院,合肥,230601;2.铜陵学院数学与计算机学院,铜陵,244061;3.合肥师范学院计算机学院,合肥,230601)摘要:卷积图神经网络(Convolutional Graph Neural Network,ConvGNN)以其强大的表达能力被广泛应用于社交网络、
2、生物网络等领域的网络表示学习中,多粒度网络表示学习已被证明能够改善已有网络嵌入方法的性能,但目前尚缺乏以改善 ConvGNN 性能为目标的框架.针对此问题,提出一种基于 ConvGNN 的多粒度网络表示学习框架 MNRL,分为四个模块:粒化模块、训练模块、推理模块和融合模块.粒化模块构造从细到粗的多粒度网络并保留不同粒度节点的属性和标签信息,训练模块在最粗粒度的网络上以端到端的方法训练任意一种 ConvGNN 并优化其模型参数,推理模块使用优化后的 ConvGNN 推理出不同粒度网络的节点表示,融合模块采用注意力权重聚合不同粒度的节点表示以产生最终的节点表示.在四个公开引文网络数据集上进行的半
3、监督节点分类任务验证了 MNRL 的有效性,实验结果表明,MNRL不仅能加速现有 ConvGNN的训练,还可以增强其最终的表示质量.关键词:网络表示学习,多粒度,卷积图神经网络,嵌入,注意力中图分类号:TP181 文献标志码:AMultigranular representation learning framework for Convolutional Graph Neural NetworksZhang Lei1,2,Qian Feng1,2,Zhao Shu1*,Chen Jie1,Yang Xuejie3,Zhang Yanping1(1.School of Computer Sci
4、ence and Technology,Anhui University,Hefei,230601,China;2.School of Mathematics and Computer Science,Tongling University,Tongling,244061,China;3.School of Computer Science and Technology,Hefei Normal University,Hefei,230601,China)Abstract:Due to its powerful representational capabilities,Convolution
5、al Graph Neural Networks(ConvGNN)have been widely used for network representation learning in social networks,biological networks,and other domains.There is a lack of a framework to increase the performance of ConvGNN,even though multigranular network representation learning has been demonstrated th
6、e improvement for current network embedding approaches.To address this problem,a ConvGNNbased multi granular network representation learning framework,called M NRL,is proposed,which is divided into four modules:granulation,training,inference and fusion modules.The task of the granulation module is t
7、o construct finetocoarse multigranular networks and retain the attribute and label information of the nodes at different granularity networks.The task of the training module is to train any kind of ConvGNN on the coarsest network in an endtoend approach and optimize its model parameters.The task of
8、the inference module is to use the optimized ConvGNN to reason about the node representations of the networks at different granularity networks.The task of the fusion module is to use attention weights to aggregate node representations of different granularities to produce the final node representat
9、ion.The semisupervised node classification task DOI:10.13232/ki.jnju.2023.01.005基金项目:国家自然科学基金(61876001),安徽省高校优秀人才支持计划(gxyq2020054),安徽省高校优秀青年骨干人才国内外访学研修项目(gxgnfx2021148,gxgnfx2021143),安徽省高校科研计划项目(2022AH051749)收稿日期:2022-09-26*通讯联系人,Email:南京大学学报(自然科学)第 59 卷is carried out on four public citation network
10、 datasets to verify the effectiveness of MNRL.Experimental results show that MNRL accelerates the training of the existing ConvGNN models and enhances the quality of its final representation.Key words:network representation learning,multigranular,Convolutional Graph Neural Network,embedding,attentio
11、n网 络 表 示 学 习(Network Representation Learning),又称网络嵌入(Network Embedding),旨在生成用于精确表示网络结构和特征的低维向量,学习的表示质量决定下游任务(如节点分类,链接预测)的性能1.目前,研究人员已提出许多生成有效网络表示的方法,但多数方法的计算效率和内存开销会随着网络规模的增加呈指数增长,阻碍了这些技术在大规模网络中的应用.为了改善现有的或新的网络嵌入技术的运行效率和表示质量,针对多粒度网络表示学习2(MultiGranular Network Representation Learning)的 研究受到了越来越多的学者的关
12、注.多粒度表示学习是一种元策略,针对其设计目标大致分两种框架.一是以降低问题求解的复杂度为目标,即在一个粗粒度的网络上使用现有的网络嵌入技术,获得粗粒度节点的表示,然后基于这些表示通过不同粒度节点之间的映射关系推理出原网络的节点表示.在不明显降低网络表示质量的前提下,对现有方法进行提速,使其能够部署于大规模网络上.二是以学习到高质量的网络表示为目标,即借助每个节点在不同粒度空间的邻域关系,扩大节点的影响半径,捕获节点的远程依赖关系,通过融合不同粒度的节点表示以获取更全面和更丰富的节点信息,提升现有方法的表示质量.通常,多粒度网络表示学习包括三个阶段:网络粒化、表示学习和表示推理(表示融合).网
13、络粒化指在保留原网络关键特性的前提下,通过迭代合并或删除节点以缩小网络规模,获得不同粒度的网络;表示学习指仅在最粗粒度的网络(所有粒度的网络)运行现有的嵌入技术,得到最粗粒度(所有粒度)的网络表示;表示推理指利用最粗粒度的表示推理出原网络表示(表示融合指通过有效的方式融合不同粒度的表示获得高质量的网络表示).近 年 来,卷 积 图 神 经 网 络(Convolutional Graph Neural Network,ConvGNN)已成为一个非常热门且快速发展的研究领域,广泛应用于社交网络分析、化学分子研究和脑网络分析等领域的网络表示学习中3.与传统的网络嵌入技术相比,基于 ConvGNN 的
14、技术可以同时对节点特征和网络结构信息在端到端的学习框架内以(半)监督或无监督的方式进行训练.已有的研究表明,对于节点分类和链接预测任务,其在公开数据集的效果远胜传统的网络嵌入技术,是目前针对图数据学习任务的最优选择.总体上,现有的多粒度网络表示学习的两种框架的目标相互矛盾.第一种框架虽可提升已知嵌入技术的运行效率,使其能够应用于大规模网络,但通常忽略了表示推理过程中生成的不同粒度表示间的互补性,且不支持基于 ConvGNN 的嵌入技术.第二种框架虽可通过聚合不同粒度的表示实现高质量的网络表示,但同时也增加了问题求解的复杂度.此类方法可以利用基于 ConvGNN 的嵌入技术学习节点表示,但需叠加
15、多个ConvGNN 以提取不同粒度的节点特征,导致模型训练效率不佳,不适用于大规模网络.所以,结合两种框架各自的优势可能是一种理想的方案.为了解决上述问题,本文提出一种面向 ConvGNN 的多粒度网络表示学习框架(Multigranular Network Representation Learning,M NRL).与现有的多粒度网络表示学习方法不同,MNRL支持基于 ConvGNN 的嵌入技术,结合了两种框架的优势,即仅利用最粗粒度的网络训练 ConvGNN 来降低训练时间和内存开销,且通过融合不同粒度的节点特征来增强最终的节点表示.MNRL 主要包括四个阶段:(1)基于网络中节点的邻域
16、关系构建一系列不同粒度的网络,其中,粗粒度节点是由网络中一些具有相似结构的细粒度节点组成,通过简单的方式保留不同粒度节点的属性和标签信息;(2)基于最粗粒度的网络训练一个浅层的 ConvGNN,得到最粗粒度的网络表示 44第 1期张蕾等:基于卷积图神经网络的多粒度表示学习框架和参数优化后的 ConvGNN;(3)使用模型参数优化后的 ConvGNN 推理出不同粒度的网络表示;(4)通过注意力机制聚合不同粒度的节点表示来获得最终原网络节点表示.本文的主要贡献:(1)使用匹配和压缩两个独立操作,迭代生成粒度由细到粗的网络,可以灵活搭配多样化的节点匹配策略,通过调整网络压缩比例动态构建满足用户需求的多粒度网络.(2)仅在最粗粒度的空间中训练一个浅层的ConvGNN,避免 ConvGNN 计算时间长和内存消耗大的问题.原则上可使用任何基于 ConvGNN的嵌入技术.(3)应用简单有效的表示推理策略,通过模型参数优化后的 ConvGNN 推理不同粒度的节点特征,并利用注意力机制融合不同粒度的表示以获取更全面的信息,增强节点特征的可分辨性.(4)在四个引文网络数据集上实现半监督的节点分类任务.实验