基于Word2Vec及Te...法的长文档摘要自动生成研究

资源描述

1、2023 年 2 月 25 日第 7 卷第 4 期现代信息科技Modern Information Technology Feb.2023 Vol.7 No.436362023.022023.02收稿日期：2022-10-13基金项目：甘肃省农业大学盛彤笙科技创新基金（GSAU-STS-2021-15）；国家自然基金（32060437）；甘肃农业大学省级大学生创新创业训练计划项目（202216018）基于 Word2Vec 及 TextRank 算法的长文档摘要自动生成研究朱玉婷，刘乐，辛晓乐，陈珑慧，康亮河（甘肃农业大学，甘肃兰州 730070）摘要：近年来，如何从大量信息中提取关键信息

2、已成为一个急需解决的问题。针对中文专利长文档，提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词，利用停用词典去除无意义的词；其次利用 Word2Vec 算法进行特征提取，并利用 WordCloud 对提取的关键词进行可视化展示；最后利用 TextRank 算法计算语句间的相似度，生成摘要候选句，根据候选句的权重生成该专利文档的摘要信息。实验表明，采用 Word2Vec 和 TextRank 生成的专利摘要质量高，概括性也强。关键词：Jieba 分词；关键词提取；Word2Vec 算法；TextRank 算法中图分类号：TP

3、391.1 文献标识码：A 文章编号：2096-4706（2023）04-0036-04Research on Abstract Automatic Generation of Long Document Based on the Word2Vec+TextRank AlgorithmZHU Yuting,LIU Le,XIN Xiaole,CHEN Longhui,KANG Lianghe(Gansu Agricultural University,Lanzhou 730070,China)Abstract:In recent years,how to extract critical in

4、formation from large amounts of information has become a problem which needs to be solved urgently.For Chinese patent long documents,a patent generation algorithm combining Word2Vec and TextRank is proposed.Firstly,Python Jieba technology is used to segment words in Chinese patent documents,and mean

5、ingless words are removed by using the stop dictionary.Secondly,the Word2Vec algorithm is used for feature extraction,and the extracted keywords are visually displayed by WordCloud.Finally,the TextRank algorithm is used to calculate the similarity between sentences,generate abstract candidate senten

6、ces,and generate abstract information of the patent documents according to the weight of candidate sentences.Experiments show that patent abstracts generated by Word2Vec and TextRank are of high quality and have strong generalization.Keywords:Jieba word segmentation;keyword extraction;Word2Vec algor

7、ithm;TextRank algorithm0 引言21 世纪，由于时代的进步与信息科技的飞速发展，大数据时代也随之来临，传统的手工编织文摘已经落后，人们获取信息的便捷度不断提高，信息量不断增加，使文本信息出现爆炸式增长。如何从大量信息中提取出重要信息还有待解决。在大量数据中提取出具有价值的信息已经成为一个重要的研究方向。自动文摘是全面反映文本信息主要内容的短文本，也具有简洁连贯的特点。自动摘要技术是计算机通过写一些算法和输入的文章自动生成摘要的技术1，到目前为止，国外做的一些自动文本摘要技术已经取得了成果，英文文本的摘要技术也已经被提出。而中文文本提取摘要的技术上依旧不够成熟，在提取结果

8、上依然有很大的进步空间，而DOI:10.19850/ki.2096-4706.2023.04.009国内的研究目前仍处于初级阶段，因此，根据中文的特点，制作设计出一个中文文本的自动摘要系统显得尤为重要2。自动文本摘要兴起于 20 世纪 50 年代，在 1958 年 IBM公司的 Luhn3第一次进行了自动文本摘要的研究，宣布了这项技术的产生。刘志明4等利用 LDA 主题模型结合TextRank 自动摘要方法，解决了不同文档结构及内容特征等问题对摘要结果的影响，实验表明，该方法能更为高效的获取新闻文本摘要结果。Salton5提出了著名的 TF-IDF 方法，词语的重要程度也被这个方法精确科学的评

9、估到了，所以才能更加精确地抽取主要句子生成摘要。HU6等人在 K-means算法的基础上进行了摘要提取。相较国外，国内从事自动文本摘要的研究相对较晚，王永成7等人在 20 世纪 80 年代开发了用于中文文献的自动文本摘要系统。国外学者 Kchaou8等根据文本的相似度计算，克服了现有的 CIA 方法一方面集中在一个时间段产生的模型，另一方面忽视了整个开发阶段产生的各种各类的模型之间的语义相互依赖关系的问题。LI9等人提取关键词用到了 TextRank 算法，最后通过神经网络得到了关键词，并将其与点生成网络进行结合，来指导37372023.022023.02第 4 期摘要生成任务的进。程园10等

10、人一起制作了一个特征加权函数，在文本的训练中用到了数学回归模型，使一些冗余句子的信息被去除，进而生成关键词得到文本摘要。徐飞11等人利用文本结构分析等技术方法实现了中文自动摘要系统。文章主要研究的是如何从一篇篇幅较长的专利性文本中提取出其中的关键词，使其输出文本摘要。在用一些主要的编码生成摘要时，会有目标算法与评价指标不一致以及结果与预测结果相差较大的问题出现5，对于存在的问题，本文根据其特点，在进行文本预处理、分词以及去除停用词一系列操作之后重点使用 Word2Vec 和 TextRank 等算法计算出词频，进行关键字抽取，词云展示，生成摘要等几个妙计，获取主题的文本摘要。实验证明，本文提出

11、的方法能够获得较好的性能提升。1 主要算法介绍1.1 分词和去停用词中文分词作为自然语言处理的第一步，利用计算机将待处理的文字串进行分词、过滤处理，输出中文单词、数字及特殊字符等一系列分割好的字符串。本文采用 Python 3.0 自带的中文 Jieba 分词，基于前缀词典进行词图扫描，通过精准模式(jieba.lcut(txt,cut_all=False)将句子最精确地切开，适合本文的专利长文档。1.2 去停用词停用词最早发现于信息检索，Luhn 在检索研究中发现有一些词出现的概率非常高，但检索效果确很差12。停用词是除了文本中可以表达具体含义的实词以外，用于填充结构的虚词以及一些其他没有实

12、际意义的词。这些词很明显就不是最后要找的关键词，而且还会对下一步的特征提取产生不好的影响13，所以要根据停用词典去除高频且毫无意义的词语。1.3 Word2Vec 算法Word2Vec 是一种产生词向量的语言模式。将所有的词向量化，以便更好地衡量词与词之间的关系，而 Word2Vec作为一种编码方式，将每个词编码成向量用来体现这些词的关系。Word2Vec 主要具有两种模型，一种是 CBOW 模型（通过上下文窗口词向量预测中心词向量）与Skip-Gram模型（根据中心词预测窗口词向量），其主要算法流程如图 1 所示。主要步骤：（1）读取源文件（此时的源文件是已经经过分词和去停用词的文件）；（2

13、）使用 Python 的第三方库，最后可以得到有关专利文本的 n 个候选关键词，即 D=t1,t2,t3；（3）遍历这些候选关键词，从生成的词向量文件中抽取候选关键词的词向量表示，即 WV=V1,V2,Vm；（4）计算词向量距离并排序，公式：（1）（5）把候选关键词排名在前 TopN 的词汇作为文本的关键词。INPUTPROJECYION OUTPUTW(t-2)W(t-1)W(t+1)W(t+2)W(t-2)W(t-1)W(t+1)W(t+2)SUMW(t)INPUTPROJECYION OUTPUTW(t)CBOWSkip-gram图 1 Word2Vec 算法流程1.4 TextRank

14、算法TextRank 算法是在 PageRank 算法的基础上提出来的，且是一种抽取式无监督的摘要方法，把对文本的分析转化成一个网络图模式，这样就可以通过分析网络图中每个节点的权重，确定节点的重要性。把文本中每一个句子都看作一个节点，如果两个句子之间存在相似性，则这两个句子之间有一条无向有权边14。句子相似度计算：（2）通过句子的余弦相似度方法计算可得到句子间的相似度矩阵 Snn：（3）其计算公式为：（4）TextRank 算法相当于一种排序算法，可以将专利文本分割成若干个单元，通过句子节点构建连接图15，利用相似度，通过循环迭代计算句子的 TextRank 值。TextRank 算法流程如

15、图 2 所示。图 2 TextRank 算法流程图句子向量表示，权重初始化迭代S1S3S5S8S6S2S7S4具有权重的的句子集合选取权重最大的S=S-smaxS*=S*+smax摘要达到要求？顺序调整输出结果否是S1=s1,s2,朱玉婷，等：基于 Word2Vec 及 TextRank 算法的长文档摘要自动生成研究38382023.022023.02第 4 期现代信息科技为分割后的每个句子找到向量表示，计算出句子之间的相似度之后存放在矩阵中，然后根据相似矩阵以及网络图计算并进行排序，最终，排名最高的 n 个句子作为最后的摘要结果。2 实验结果及讨论文章的设计目的是从一篇中文专利文档中抽取关键

16、词，以农业大棚用薄膜为研究对象，对文档内容进行大致的分析。其中涉及四个步骤，首先对长文档进行分词、去停用词，其次利用 Word2Vec 算法提取反映文章主要内容的关键词，最后通过 TextRank 算法自动生成摘要，其具体的流程如图 3所示。专利摘要数据预处理 Word2Vec算法生成关键词集合TextRank算法根据压缩选择前N个句子作为摘要生成摘要生成关键词关键词可视化展示Jieba中文分词去停用词图 3 长文档专利生成步骤2.1 分词和去停用词使用 Jieba 库，进行分词拆分，先去掉非汉字字符，读入停用词表的文件，对每个词进行检索，去除对文本语义分词无意义的标点符号，对文本数据进行预处理，部分结果如表 1 所示。表 1 分词与去停用词原句“对于农业大棚中使用的这种透明薄膜，在专利文献 1 3 中记载有使用含有纤维素酰化物树脂且透湿性为 600 g/(m224 h)以上的薄膜。分词“对于农业大棚中使用的这种透明薄膜，在专利文献 1 3 中记载有使用含有纤维素酰化物树脂且透湿性为 600 g/(m224 h)以上的薄膜。去停用词“农业大棚透明薄膜，专利文献 1 3 记载含有纤维素酰

展开阅读全文

基于Word2Vec及Te...法的长文档摘要自动生成研究_朱玉婷.pdf