1、第 50 卷 第 2 期2 0 2 3 年 2 月Vol.50,No.2Feb.2 0 2 3湖 南 大 学 学 报(自 然 科 学 版)Journal of Hunan University(Natural Sciences)基于事件异构图表示的文本去重算法艾玮,许佳,谢灿豪,孟涛(中南林业科技大学 计算机与信息工程学院,湖南 长沙 410018)摘 要:基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻
2、文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.关键词:图核算法;事件异构图;新闻文本;文本表示;文本去重中图分类号:T391.1 文献标志码:AText Deduplication Algorithm Based on Event Heterogeneous Graph RepresentationAI Wei,XU Jia,XIE Canhao,MENG Tao(School of Computer
3、 and Information Engineering,Central South University of Forestry and Technology,Changsha 410018,China)Abstract:The text representation method based on graph structure has a better effect in news text deduplication.However,at present,this representation method cannot fully represent the complete inf
4、ormation of the text,and ignores the semantic information of the graph,which reduces the deduplication effect of news text.To this end,this study proposes a text deduplication algorithm based on event heterogeneous graph representation.The algorithm first represents the global semantic and structura
5、l information of news text through event heterogeneous graph,and then proposes a dual-label graph kernel algorithm to represent event heterogeneous graph to realize the structure and semantic information of the deep representation graph.The experimental results show that the deduplication algorithm
6、proposed improves the F1-score index by 10%,compared with the existing text representation deduplication method based on graph structure.Finally,the algorithm can improve the deduplication effect of news text.Key words:graph kernel algorithm;event heterogeneous graph;news text;text representation;te
7、xt deduplication 收稿日期:2022-04-14基金项目:国家自然科学基金资助项目(61802444),National Natural Science Foundation of China(61802444)作者简介:艾玮(1979),女,湖南祁东县人,中南林业科技大学副教授,博士 通信联系人,E-mail:文章编号:1674-2974(2023)02-0074-12DOI:10.16339/ki.hdxbzkb.2023267第 2 期艾玮等:基于事件异构图表示的文本去重算法随着大数据时代网络信息激增,扩展了人们获取信息的渠道,有利于信息的传播,但是随之而来的是大量重复网
8、络信息,如何对大量且重复的网络信息进行提炼是亟待解决的问题.其次,从当前的网络信息中可以得出,当前网络信息中需要分析、提炼的大部分是新闻文本.因此,对新闻文本展开文本去重研究是十分必要的,并且如何从冗余的数据中获取需要的信息,是信息处理的首要任务.当前主流的去重方法,均是通过文本表示技术获取文本的向量表示,再计算向量之间的相似度,从而判断文本之间是否相似、重复.而随着词向量、神经网络、预训练模型等技术的发展,研究者们不断提出基于不同文本表示的文本去重算法,通过不同的文本表示方法可以将当前的文本去重技术分为四类:经典文本表示方法、分布式文本表示方法、上下文表示方法以及图结构表示方法.不同的文本表
9、示方法,所获取的文本信息也是不一样的,而获取的文本信息越多,文本相似度计算结果越准确,从而文本去重准确率越高,并且新闻文本的核心是其描述的事件,因此更多地获取新闻文本描述的事件的语义信息,有利于提高文本去重的准确率.首先,在经典的文本表示方法中主要有二值0-1、词频(Term Frequency,TF)、词频-逆文本频率指数(Term FrequencyInverse Document Frequency)等向量文本表示,经典的文本表示方法能获取浅层的文本语义1.王诚等作者提出了基于TF-IDF的Simhash大规模文本去重2,该方法通过TF-IDF技术筛选出文本的主题词汇,再采取Simhas
10、h算法,获取文本的向量表示,该方法消除了大量的噪声,能有效地进行大规模文本去重,同时也能保持Simhash的高效计算性能.但是经典的文本表示方法只能获取浅层的文本语义,无法获取较深层次的语义信息及文本结构信息,因此基于分布式假设理论的神经网络语言模型与分布式词向量表示应运而生.分布式文本表示方法主要有NNLM(Neural Network Language odel)3、Word2vec4、Glove5等,分布式文本表示方法能获取词语的局部上下文信息,增加了文本表示的语义含量.崔洁提出了进行加权处理的Word2vec算法进行文本相似度计算6,该研究考虑了词语中的局部文本信息,也对词语的位置信息
11、进行考虑,结合余弦相似度得到最终的文本是否重复的信息.但是分布式文本表示方法存在文本多义词以及未登录词(Out of Vocabulary,OOV)问题.于是研究者们针对上述问题,提出了基于上下文的文本表示方法.基于上下文的文本表示方法主要有ELMo(Embedding from Language Models)7、BERT(Bidirectional Encoder Representation from Transformers)8等模型,这些模型能解决分布式文本表示的相关问题,还能获取文本序列的上下文信息.宁春妹提出了基于BERT的文本相似度算法9,利用BERT进行文本表示,解决一词多义
12、的问题,在文本相似度上取得较好的结果.尽管目前使用最多的文本表示是基于上下文的文本表示方法,但是它忽略了文本的全局结构信息,而图结构能够很好地表示结构信息,因此提出了基于图结构的文本表示方法.目前主要有两种图结构,分别是词连通子图结构与事件连通子图结构.二者均是通过将文本中的词或者特征句当作节点,并将词或者特征句之间的关系构建边,得到最终的图结构,通过图结构能够将文本的结构信息进行表示,丰富了文本表示的信息含量.刘铭等人提出了基于词进行构建篇章级事件表示的文本相似度方法10,通过图结构将句子级事件进行连接,形成篇章级事件表示,能将事件内部触发词与事件元素进行联系,之后采取结合EM思想的Text
13、Rank算法,计算得出文本的相似度.谭伟志等人提出了面向事件的文本表示方法计算文本相似度11,该方法将特征句作为图结构的基本节点,特征句之间的关系作为边,以此构建事件语义网络模型,之后采取PageRank算法,计算得出文本的相似度.基于图结构的文本表示方法中,对图的表征除了采取 PageRank等算法,还有采取图核算法的.蒋强荣等提出使用图核算法对文本图表示结构表征12,在计算表征后的向量的相似度得到文本相似度,通过图核算法能更好地表征结构信息,提高计算的准确率.左咪等提出的基于W-L图核算法的文本图表示进行图表征13,利用W-L图核算法,能获取图的结构信息并且能简化图计算的复杂度,有效提升了
14、图相似度计算的准确率及性能.虽然当前基于图结构的文本表示已经使得文本去重效果得到提升,并且采取的相关图表征算法也有一定的效率及效果上的提升.但是,目前基于图结构的文本表示仍然存在一定的缺陷,无法对事件语义或者事件元素关系进行完整表示,并且当前图表征计算方法,不能获取图结构信息或者不能对多种节点类型的图进行完整表征.75湖南大学学报(自然科学版)2023 年针对上述问题,本文以新闻文本为研究对象,根据新闻文本的核心内容事件进行分析,提出基于事件异构图表示的文本去重算法,该算法首先采取事件异构图进行文本图表示,事件异构图包含了事件实体、事件触发词、事件特征句三种节点类型,以及多种节点边类型,通过事
15、件异构图可以更好地表达出文本的各种信息.其次,为了更好地表征事件异构图,我们采取能够获取图结构信息及语义信息的图核算法进行图表征,但是当前的图核算法无法对异构图进行表征,所以本文提出双标签图核算法表征异构图结构,通过标签的信息迭代逐步对全部的节点信息进行表征,并且双标签图核算法能降低图计算的复杂度,达到提高去重的效果以及效率的目的.因此,基于事件异构图表示的文本去重算法能有效地提高文本去重算法的效率及效果.1 事件异构图在本节中,主要介绍构建事件异构图的相关过程以及相关定义,主要包括事件抽取、关系识别、事件异构图定义及构建.1.1 事件抽取事件是文本表示的最小语义单位,并且一篇文本中会存在多个
16、事件语义单位14,我们首先对事件进行如下定义:E=(W,S,C,O,T)(1)式中,E代表事件,W是事件的触发词,S是事件的特征句,C是事件的主要对象,O是事件的次要对象,T是事件发生的时间.我们选取Han等人提出的中文新闻事件抽取算法15来完成本文的事件抽取.根据事件的定义,事件抽取的内容主要包括事件的实体、触发词、时间、地点、事件句等元素.如给定一段文本信息,采取中文新闻事件抽取算法15得到图1所示的事件信息.从图中可知,下画线标记的句子是事件的特征句S,事件的实体对象 C、O 分别是“永安期货”与“中信证券”,事件的触发词W为“龙头企业”,事件的时间T为“1 月 4 日”.其中,事件元组中的 O 与 T 可以是空的.1.2 关系识别关系识别是当前构图的关键部分,如何让文本表示中的结构信息更加丰富,是本文需要考虑的一个重要问题.我们采取两种方法进行关系识别,第一种是马彬等作者提出的基于事件依存线索的事件语义关系识别16,第二种是杨竣辉等作者提出的基于语义事件因果关系识别17,采取这两种方法进行关系获取,主要是由于目前事件关系的识别结果的准确率还有一定的提升空间,为了不过多引入噪声,