1、第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于场景与对话结构的摘要生成研究李健智,王红玲,王中卿(苏州大学 计算机科学与技术学院,江苏 苏州 215006)摘要:对话摘要是从复杂的对话中提取关键信息以转化成简短的文本,供用户快速浏览对话内容。相比传统文本摘要,对话摘要数据具有篇幅较长、结构复杂等特点。传统的摘要模型难以充分地利用数据的长文本信息,并且无法考虑对话的结构信息。为此,结合抽取和生成模型,提出一种基于场景与对话结构的摘要生成方法,以对话中的场景、角色和对话内容为主要信息生成对话摘要。通过对话解析构建以角色、动作说明和会话为要素的对话结构图
2、,并使用序列标注任务微调 BERT预训练模型,生成以对话句子为单位的向量表示,利用图神经网络建模对话结构,筛选出包含关键信息的句子。在此基础上,将得到的抽取结果作为生成模型的输入,利用双向自回归变压器(BART)预训练模型作为基础框架,在编码端额外引入角色和场景信息,丰富生成模型的语义特征,使用加入多头注意力机制的解码器生成摘要。实验结果表明,相比 BART、MV_BART、HMNet等方法,该方法在 ROUGE-1指标上最高可提升 5.3个百分点。关键词:对话摘要;长文本摘要;文本结构;对话结构;双向自回归变压器预训练开放科学(资源服务)标志码(OSID):中文引用格式:李健智,王红玲,王中
3、卿.基于场景与对话结构的摘要生成研究 J.计算机工程,2023,49(4):303-311.英文引用格式:LI J Z,WANG H L,WANG Z Q.Research on summarization generation based on scene and dialogue structure J.Computer Engineering,2023,49(4):303-311.Research on Summarization Generation Based on Scene and Dialogue StructureLI Jianzhi,WANG Hongling,WANG Z
4、hongqing(School of Computer Science and Technology,Soochow University,Suzhou 215006,Jiangsu,China)【Abstract】The dialogue summarization s goal is to condense key information from complex dialogues into concise text,allowing users to browse through the content quickly.Unlike traditional text summariza
5、tion,dialogue summarization data is characteristically lengthy and complex in structure.The traditional summarization model is unable to exploit the lengthy text information fully,and neglects the structural information of the conversation.To this end,this paper proposes a summarization generation m
6、ethod based on scene and dialogue structure by combining the extraction and generation model.This method generates the dialogue summarization using the scene,role,and dialogue content.Through dialogue analysis,a dialogue structure diagram incorporating elements such as roles,action descriptions,and
7、conversations is constructed.The BERT pre-training model is fine-tuned using sequence tagging tasks to generate vector representation with dialogue sentences as the unit.Graph neural networks model the dialogue structure and filter out sentences containing key information.On this basis,the generatio
8、n model uses the extracted results as the input.A Bidirectional and Auto-Regressive Transformer(BART)pre-training model as the basic framework,introduces additional role and scene information at the coding end,enriches the semantic features of the generation model,and uses the decoder with a multi-h
9、ead attention mechanism to generate the summarization.The experimental results indicate that the proposed method can increase the ROUGE-1 index by up to 5.3 percentage points,compared to BART,MV_BART,HMNet,and other methods.【Key words】dialogue summarization;long text summarization;text structure;dia
10、logue structure;Bidirectional and Auto-Regressive Transformers(BART)pre-trainingDOI:10.19678/j.issn.1000-3428.00643820概述 自动文本摘要1是自然语言处理领域的热点,其目的在于将复杂冗余的长文本转化成简洁精炼的文本,便于人们使用和信息的传递。近年来,对话摘要2任务得到了工业界和学术界的广泛关注,包括基金项目:国家自然科学基金(61976146)。作者简介:李健智(1997),男,硕士研究生,主研方向为自然语言处理;王红玲、王中卿,副教授、博士。收稿日期:2022-04-06 修回
11、日期:2022-05-17 Email:开发研究与工程应用文章编号:1000-3428(2023)04-0303-09 文献标志码:A 中图分类号:TP3912023年 4月 15日Computer Engineering 计算机工程会议、闲聊、剧本等不同形式。相比传统文本的生成任务,对话的建模是一项难点。为更充分地理解对话信息,现有的工作通过引入外部信息来更好地建模对话,例如,对话结构信息、主题信息、说话人信息等。此外,不同领域的对话数据也有其不同的特点,需要对其进行个性化分析。剧本形式对话的内容主要由台词和舞台说明组成,台词部分主要由对话展现。剧本的对话摘要可以将较长的剧本内容总结成一个简
12、单的故事概要,包括基本的故事情节,可以节省读者大量的阅读时间。剧本的篇幅往往在几十页到上百页不等,属于长文本。如果仅依靠人工来阅读剧本和总结剧本,是一项十分困难的工作。利用剧本中复杂的结构信息来帮助对话摘要的生成,是剧本形式对话研究的重点与难点。随着神经网络的发展,生成式文摘3成为文本摘要的主流方法,基于编码器-解码器4的生成模型得到广泛关注。与抽取式文摘5不同,由于对话文本内容过长,生成式文摘模型难以充分利用有效的信息,在摘要模型的构建过程中忽略文本内部复杂且丰富的结构化信息,并且文本结构对于长文本极其重要,如果仅使用文本包含的序列化信息进行编码与建模,难以生成高质量的摘要。本文提出一种基于
13、场景与对话结构的抽取-生成摘要模型。通过对原文中的对话进行分析,提出以角色、动作说明和会话作为三要素的对话顺序结构和对话交互结构,并且采用图注意力网络(Graph Attention Network,GAT)构建有向的对话结构图,完成对原文的信息选择,使用以双向自回归变压器(Bidirectional and Auto-Regressive Transformers,BART)为基础的序列到序列(Seq2Seq)框架构建生成模型。在编码段额外加入角色和场景信息有助于丰富句子的语义特征,采用引入多头注意力机制的解码器生成对话摘要。1相关工作 1.1自动文本摘要早期的抽取式摘要是无监督抽取式摘要,
14、受谷歌的 PageRank6算法的启发,MIHALCEA 等7提出基于图排序的 TextRank 算法,该算法将句子之间的相似度作为邻边的权重,通过循环迭代计算句子的TextRank 值。CHENG 等8提出 NeuralSum 方法,结合卷积神经网络和循环神经网络提取句子特征。LIU 等9将 BERT 预训练模型应用到抽取式自动文本摘要中,并在 BERT 模型的基础上得到每句话的特征,最后经过 Summarization层得到摘要。相比抽取式摘要,生成式摘要模型可以自己生成句子,具有更高的灵活性。RUSH 等10将编码器-解码器框架与注意力机制运用到生成式文本摘要中,在自动文本摘要上取得显著
15、的成果。为有效处理未登录词(OOV)的问题,GU等11提出 CopyNet来完成文本生成任务中的复制操作,将未登录词的内容 copy 到输出中。在该机制的基础上,SEE 等12提出融合序列到序列模型和覆盖率机制的指针生成网络,有效地缓解生成重复的问题。GULCEHRE等13也提出了类似的观点,利用选择门控制一个单词是从文本中复制还是从词汇表中选择。ZENG 等14在使 用 复 制 机 制 的 同 时,在 门 控 循 环 单 元(Gated Recurrent Unit,GRU)与长短期记忆(Long Short-Term Memory,LSTM)的门上引入额外的权重信息,以实现自动文本摘要的生
16、成。COHAN 等15提出一种分层编码器,作为对传统模型的延伸,以先前神经网络层的输出作为后续神经网络层的输入,旨在获取文本的分层信息。实验结果表明,该模型弥补了递归神经网络不善于处理长序列的缺点。2018 年,自 谷 歌 提 出 BERT16以 来,基 于Transformer17的编码器-解码器结构成为生成任务的主流,在机器翻译、对话生成等任务上取得较优的成果。LIU 等18将 BERT 预训练模型运用到文本摘要生成任务中,以 BERT 作为编码器,Transformer作为解码器,获得较优的效果。随后的预训练模型都是 在 其 基 础 上 进 行 改 进 的。2019 年,微 软 提 出UniLM19,通过三种特殊的 Mask 预训练目标,使模型可以用于自然语言的生成,同时在自然语言理解任务上获得与 BERT 一样的效果,Facebook AI 团队提出 BART20预训练模型,在 BERT的双向编码器架构中添加因果解码器,用更复杂的预训练任务代替BERT的完形填空任务,在文本摘要等生成任务上取得进一步突破。1.2融合文本结构信息的自动文本摘要对于文档结构化信息的自动文本摘要研究,