1、Short text classification based on graph convolutional neural networkswith entity informationWANG Jiayu,LI Ying,MA Chunmei,WU Donghao,JIANG Lifen(College of Computer and Information Engineering,Tianjin Normal University,Tianjin 300387,China)Abstract:An entity information fused graph convolutional ne
2、ural network model(ETGCN)is proposed for short text classifica-ion.Firstly,the entities in the short text are extracted by the entity link tool.And then,the text,entities and words are modeledby the graph convolutional neural network to enrich the latent semantic features of the text.After that,the
3、learned noderepresentation of the word and the BERT word embedding are spliced and fed to the bidirectional long and short-term memorynetwork to further mine the semantic features of the text context.The semantic features of the text context are merged with thetext features obtained by the graph neu
4、ral network model.The fusion features are used for the classification of the short text.Theexperimental results show that the classification accuracy of the model on data sets of AGNews,R52 and MR is 88.38%,93.87%and 82.87%,respectively,which is better than other mainstream baseline methods.Keywords
5、:shorttextclassification;entity information;graph convolutionalneuralnetworks融合实体信息的图卷积神经网络的短文本分类模型王佳宇,李楹,马春梅,吴东昊,姜丽芬(天津师范大学 计算机与信息工程学院,天津 300387)摘要:提出一种融合实体信息的图卷积神经网络模型(ETGCN),用于短文本分类.首先,使用实体链接工具抽取短文本中的实体;然后,利用图卷积神经网络对文档、实体和单词进行建模,丰富文本的潜在语义特征;将学习到的单词节点表示与 BERT 词嵌入进行拼接,通过双向长短期记忆网络,进一步挖掘文本上下文语义特征,再与图
6、神经网络模型得到的文本特征进行融合,用于分类.实验结果表明,该模型在数据集 AGNews、R52 和 MR 上的分类准确率分别为 88.38%、93.87%和 82.87%,优于大部分主流的基线方法.关键词:短文本分类;实体信息;图卷积神经网络中图分类号:TP391.1;TP183文献标志码:A文章编号:1671-1114(2023)01-0067-06收稿日期:2021-08-21基金项目:国家自然科学基金资助项目(61902282);天津市自然科学基金重点项目(18JCYBJC8900,18JCQNJC70200,20JCZDJC000);天津市教委科研计划资助项目(2018KJ155);
7、天津市科技发展基金资助项目(JW1702);广东省科技计划资助项目(2017KQNCX194).第一作者:王佳宇(1996),男,硕士研究生.通信作者:李楹(1975),女,副教授,主要从事智能计算和自然语言处理方面的研究.E-mail:.短文本分类作为自然语言处理中的一项基础任务1,在对话问答、情感分析2和舆情分析等领域的文本信息处理方面发挥着重要作用.与长文本不同,短文本分类对传统文本分类方法造成极大困难,短文本数据具有以下特点:(1)语义稀疏性:短文本所含单词数量较少,具有实际语义的词语不多,难以提取对分类有用的信息.(2)句子不规则性:大部分短文本句子,如新闻标题、对话消息、微博等话题
8、内容贴近日常生活,表述简洁,句子结构偏口语化,且网络流行语较多,这对分类器的准确识别造成极大挑战.(3)数据规模大:大量的短文本数据充斥网络,传统的人工数据处理方式已经不能满足时效性和经济性要求.短文本分类旨在为大量未标记的文本选择合适的标签,现有的文本分类方法可分为 3 类:基于统计的方法、基于深度学习的方法和基于图神经网络的方法.基于统计的文本分类算法包括设计特征工程和分类算法.特征工程通过处理文本数据提取特征,作为后续分类器的输入,通常使用词袋模型3获取数据第 43 卷第 1 期2023 年 1 月天 津 师 范 大 学 学 报(自 然 科 学 版)Journal of Tianjin
9、Normal University(Natural Science Edition)Vol.43 No.1Jan.2023doi:10.19638/j.issn1671-1114.20230111天 津 师 范 大 学 学 报(自 然 科 学 版)2023 年 1 月特征.此外,还有一些复杂的文本特征工程,如 N-Gram模型4、主题模型5.分类算法一般基于逻辑回归(LR)6、支持向量机(SVM)7、梯度提升决策树(GBDT)8等模型进行设计.文本特征工程往往需要人工处理数据,对于海量数据而言,成本过高,处理时间过长,且传统方法得到的文本表示具有高维度高稀疏性的特点,特征表达能力弱,不利于分类
10、任务.深度学习已在短文本分类领域取得突破性进展,相比于传统文本分类算法,基于深度学习的分类算法能够自动提取更深层次、更复杂的文本特征,并实现端到端的处理.文献9引入卷积神经网络提出了 TextCNN算法,通过多个卷积核更好地捕获文本间的局部信息.文献10提出的 TextRNN 算法能够捕获尽可能长的序列的上下文语义关系,但循环神经网络在训练过程中会出现梯度消失的问题,无法学习到长距离的序列信息.TextCNN 和 TextRNN 都需要对每条文本进行建模,往往会忽略语料库的全局特征.为减小短文本数据稀疏性的影响,文献11提出一种不依赖于外部语料库的主题记忆网络,通过整个数据集的词共现特征寻找用
11、于分类的关键词,挖掘出潜在主题用于分类.文献12提出了一种基于相似矩阵的卷积神经网络(KASM)模型,使用知识图谱(KG)来丰富短文本的语义表示.但这些方法仅对文本的局部信息进行建模,没有关注文本的全局信息.近年来,图神经网络(graphneuralnetworks,GNN)13被应用于文本分类任务.文献14针对整个语料库建立了包含文档节点和单词节点的异构文本图(TextGCN),通过图卷积神经网络模型进行学习,聚合图内邻居节点信息,进而得到文档节点和单词节点的表示.文献15在 TextGCN 的基础上提出了 TensorGCN 模型,TensorGCN 同样对语料库中的文档节点和单词节点进行
12、构图,建立基于语义、句法和序列的 3 个异构图,形成文本图张量.不同于 TextGCN,TensorGCN 进行 2种传播学习,一种是图内信息的传播,用于聚合单图上邻居节点的信息,另一种是图间信息传播,协调不同类型图的异构信息.文献16提出了融合节点和边权值的图注意力网络,为每个文本建立同构图,利用引力模型(GM)评估整个语料库中单词节点的重要性,通过节点间的点互信息(PMI)获得边权重,通过图注意力网络进行整图分类.但上述方法仅在语料库信息的基础上建立文本图,利用全局信息增强文本的表示,并没有通过外部信息对文本进行扩充来减小短文本稀疏性的影响.本文提出一种融合实体信息的图卷积神经网络模型(e
13、ntity information fused graph convolutional neuralnetwork model,ETGCN),通过实体链接将文档中单词对应的实体引入进来,并将单词链接为实体的置信度,作为文档-实体之间边的权重,建立包含文档-实体-单词 3 种节点的异构图.在图卷积神经网络的传播学习中,将实体信息传递给文档节点和单词节点,能够得到更准确的节点特征表示.引入实体节点在对短文本进行扩充的同时,还对文本单词起到一定的消歧作用,以减小短文本特征空间稀疏性的影响.考虑到序列上下文信息对分类任务的影响,将融合实体信息学习到的文档节点和单词节点的表示,输入双向长短期记忆网络模型
14、(BiLSTM),并融合 BERT 表示,进行最终分类.1模型描述本文提出的图卷积神经网络模型 ETGCN 的模型结构见图 1.该模型包括 4 个模块,分别为实体链接模块、嵌入输入模块、特征学习模块和类别输出模块.实体链接模块利用实体链接工具将短文本中的单词映射到维基百科的实体上.嵌入输入模块的文档嵌入、实图 1融合实体信息的图卷积神经网络模型的结构Fig.1Structure of graph convolution neural network modelwith entity information数据集实体链接模块ETGCNShort textEntity linkingw2w3w1d
15、1wmd2dne1e2e3嵌入输入模块特征学习模块类别输出模块x1x2x3xlBERTrepresentationSoftmaxBiLSTMWordrepresentationETGCN documentrepresentationBiLSTM documentrepresentationEntity setep68第 43 卷第 1 期体嵌入和单词嵌入分别将文档、实体和单词映射到高维向量空间.特征学习模块使用异构图卷积神经网络对输入的嵌入特征进行训练,通过训练学习得到文档特征表示和单词特征表示.类别输出模块将特征学习模块学习到的单词特征表示与 BERT 预训练的graph convoluti
16、on networks 词嵌入特征进行融合,经过BiLSTM 捕获文本的上下文特征,将得到的隐藏状态特征与特征学习模块得到的文档特征进行拼接,通过线性变换最终得到短文本的类别.1.1实体链接模块实体链接能够解决短文本中词语的概念歧义和标注问题,进而丰富短文本的表达,本文使用 TagMe实体链接工具将单词映射到维基百科的实体上,利用外部知识库对短文本的单词概念进行扩充,这种方式是仅对分词的文本进行词嵌入处理无法实现的.1.2嵌入输入模块词嵌入是下游自然语言处理任务的表征基础,能够以数字形式捕获词汇语义,处理抽象语义概念,广泛应用于文本分类、问答系统和知识挖掘等领域17.Word2Vec18-19和 Glove20是文本分类中 2 种常见的词嵌入方式.Word2Vec 通过包含局部上下文信息的滑动窗口,捕获单词的语义,挖掘单词间的相关性,得到单词的表示.Glove 基于全局词共现矩阵捕获单词的全局语义信息,对单词进行嵌入向量表示.本文将单词、实体、文档映射到高维向量空间,构成图神经网络节点的输入特征.对于单词节点,使用随机初始化的特征作为单词嵌入;对于实体节点,使用预训练的维基百科实体特征