1、第 49卷 第 4期2023年 4月Computer Engineering 计算机工程结合依存图卷积与文本片段搜索的方面情感三元组抽取徐康,李霏,姬东鸿(武汉大学 国家网络安全学院 空天信息安全与可信计算教育部重点实验室,武汉 430040)摘要:现有基于序列标注或文本生成的三元组抽取模型通常未考虑完整文本片段级别的交互,且忽略了句法知识的应用。为解决上述问题,提出一种基于依存图卷积与文本片段搜索的深度学习模型来联合抽取方面情感三元组。通过预训练语言模型 BERT编码层学习句子中每个单词的上下文表达,同时利用图卷积神经网络学习句子单词之间的依存关系和句法标签信息,以捕获远距离的方面词与观点词
2、之间的语义关联关系,并采用文本片段搜索构造候选方面词与观点词及其特征表示,最终使用多个分类器同时进行方面词与观点词抽取及情感极性判断。在ASTE-Data-V2数据集上的实验结果表明,该模型在 14res、14lap、15res和 16res子集上的 F1值相比于 JET模型提升了 10.61、10.54、4.91和 8.48个百分点,具有较高的方面情感三元组抽取效率。关键词:方面情感三元组抽取;图卷积神经网络;深度学习;依存句法分析;文本片段搜索开放科学(资源服务)标志码(OSID):中文引用格式:徐康,李霏,姬东鸿.结合依存图卷积与文本片段搜索的方面情感三元组抽取 J.计算机工程,2023
3、,49(4):61-67.英文引用格式:XU K,LI F,JI D H.Aspect sentiment triple extraction by combining dependency graph convolution and text span search J.Computer Engineering,2023,49(4):61-67.Aspect Sentiment Triple Extraction by Combining Dependency Graph Convolution and Text Span SearchXU Kang,LI Fei,JI Donghong(K
4、ey Laboratory of Aerospace Information Security and Trusted Computing,Ministry of Education,School of Cyber Science and Engineering,Wuhan University,Wuhan 430040,China)【Abstract】Existing studies on the extraction of aspect sentiment triples mostly employ methods based on sequence tagging or text gen
5、eration.These methods consider neither the interactions at the span pair level nor the application of syntactic knowledge.To address these problems,this study proposes a deep learning model based on dependency graph convolution and text span search to jointly extract aspect sentiment triples.The mod
6、el first learns the contextual representation of each word in a sentence through the Bidirectional Encoder Representations from Transformers(BERT)coding layer.It then utilizes a graph convolutional neural network to learn the dependencies and syntactic label information in words to capture the seman
7、tic associations between distant aspect terms and opinion terms.It also uses text span search to construct candidate aspect and opinion terms and their feature representations.Finally,the model extracts aspect and opinion terms and sentiment polarity simultaneously using multiple classifiers.Experim
8、ents on the Aspect Sentiment Triple Extraction(ASTE)-Data-V2 dataset show that the model improves F1 scores by 10.61,10.54,4.91,and 8.48 percentage points on the 14res,14lap,15res,and 16res subsets,respectively,as compared with the JET model,thus demonstrating its effectiveness.【Key words】Aspect Sen
9、timent Triple Extraction(ASTE);graph convolution neural network;deep learning;dependency syntactic parsing;text span searchDOI:10.19678/j.issn.1000-3428.00645580概述 方面级情感分析(Aspect-Based Sentiment Analysis,ABSA)是一种细粒度的情感分析技术1,目的是识别方面术语、对应的情感极性和意见术语2,广泛应用于商品评论、公众观点分析等任务。国际语义评基 金 项 目:国 家 自 然 科 学 基 金(621
10、76187);国 家 重 点 研 发 计 划(2017YFC1200500);教 育 部 哲 学 社 会 科 学 研 究 重 大 课 题 攻 关 项 目(18JZD015);教育部人文社科青年基金(22YJCZH064);湖北省自然科学基金(2021CFB385)。作者简介:徐康(1996),男,硕士研究生,主研方向为自然语言处理;李霏,副研究员、博士;姬东鸿,教授、博士。收稿日期:2022-04-26 修回日期:2022-06-08 Email:人工智能与模式识别文章编号:1000-3428(2023)04-0061-07 文献标志码:A 中图分类号:TP3912023年 4月 15日Com
11、puter Engineering 计算机工程测大会 SemEval从 2014 年起连续 3 年将 ABSA 任务作为其子任务并提供了一系列人工标注的基准数据集3-5。但由于现有方面级情感分析研究主要关注方面词抽取6-8、基于方面词的情感极性分类9-11、观点词抽取12-13、方面词和观点词的共同抽取等子任务14-16,然而针对这些子任务均仅解决了细粒度情感分析任务的某一方面,并没有为其提供完整的解决 方 案,因 此 文 献1提 出 方 面 情 感 三 元 组 抽 取(Aspect Sentiment Triplet Extraction,ASTE)任 务。该 任 务 的 目 标 是 从 用
12、 户 评 论 中 抽 取 形 如(What,How,Why)这样的三元组集合,其中:What代表评论的目标,即方面词;How 代表用户对于评论目标表达的情感极性;Why代表体现相应情感极性的原因,即观点词。例如,从用户评论“the food is not comforting,not appetizing and uncooked.”中,可以抽取(food,negative,not comforting)、(food,negative,not appetizing)、(food,negative,uncooked)三元组集合来刻画用户对于“food”品质的综合评价。此外,文献 1 建立两阶段框
13、架来处理该任务:在第一阶段中,通过序列标注的方法从输入句子中分别抽取带有情感极性的方面词和观点词;在第二阶段中,通过分类器来选择合适的方面词和观点词进行组合。然而,该方法存在两方面的问题:一方面,在第一阶段中将方面词与情感极性相结合的标注方法会导致模型训练和优化过程过于复杂;另一方面,这种基于流水线方式的两阶段方法容易受到错误传播的影响。近年来,学者们陆续提出了基于序列标注17、基于文本生成18-19、基于阅读理解20-21、基于文本片段22等端到端ASTE方法,然而在这些方法中:基于序列标注的方法仅考虑了单个单词的信息而忽略了情感词整体的信息,因此不能很好地处理由多个单词组成的情感词;基于文
14、本生成和阅读理解的方法需要对原始任务进行一定程度的改造,并为其设计相应的问题模板,增加了任务的复杂性;基于文本片段的方法22虽然在预测情感极性时考虑了情感词的完整文本片段的信息,但忽略了依存句法分析在ASTE任务中的重要作用。文献 9-11 利用图神经网络来学习与特定方面词相关的上下文,进而判断特定方面词的情感极性。然而,这些方法并没有考虑到依存句法标签的类别信息,同时也无法以端到端的方式从用户评论中抽取情感三元组。为解决上述问题,本文提出一种基于依存句法知识与文本片段搜索的端到端方面情感三元组抽取模型 ESYNM。该模型利用图卷积神经网络来学习单词之间的依存句法关系,建立方面词与观点词之间的
15、远距离联系,基于依存句法标签的类别信息来判断观点词所表达的情感极性,同时利用文本片段搜索联合进行方面词、观点词预测和情感极性判断以提高计算效率,并在 ASTE-Data-V2数据集上与多种基线模型进行实验对比。1相关工作 在方面级的情感分析任务中,现有研究多数仅关 注 细 粒 度 情 感 分 析 任 务 的 某 一 个 子 任 务。文献 9-11 通过图卷积神经网络来学习依存句法树,然后利用单词之间的依存关系找到与特定方面词相关的句法上下文,进而判断情感极性。文献 23 设计一个双层交互式图卷积网络来融合层次句法图和词汇图。文献 24 提出双图卷积网络 DualGCN 来同时学习句法结构与语义
16、相关性。文献 25 通过图注意力网络来融合句法知识,从而加强方面词之间的交互。然而,单独处理细粒度情感分析任务的某一个子任务面无法进行整体的情感分析。因此,学者们开始考虑多个子任务的联合学习,包括方面词与观点词的共同抽取、方面词及其情感极性抽取26-27等。文献 14使用基于依存树的递归神经网络来捕获方面词与观点词之间的双向传播关系。文献 16 建立一个融入规则的方面词和观点词共同抽取模型。文献 26 采用多目的的标注机制来同时抽取方面词和判定情感极性。文献 1 提出方面情感三元组抽取任务,该任务旨在同时从句子中抽取方面词、观点词,以及与每个方面词相关的情感极性,基于 SemEval 2014、2015和2016相关测评任务的数据集构造基准数据集 ASTE-Data-V1。然而,文献 17 发现 ASTE-Data-V1 数据集遗漏了一个观点词对应多个方面词的情况,在ASTE-Data-V1 数据集的基础上进行修正,发布了ASTE-Data-V2 数据集。在 ASTE 任务中,早期工作主要采用流水线方式,例如 CMLA+1、RINANTE+1和 TwoStage1。这类方法的基本思想是