1、第 28 卷 第 2 期2023 年 4 月工业工程与管理Industrial Engineering and ManagementVol.28 No.2Apr.2023基于BERT-BiLSTM-TFIDF的产品研发文档关键词抽取方法卢啸岩,郑宇*,昝欣(上海交通大学 机械与动力工程学院,上海 200240)摘要:制造企业现有的内部知识管理系统大多通过人工选取产品研发文档标签,效率低下。应用自然语言处理技术抽取文档关键词作为文档标签有助于制造企业知识管理系统智能化。针对产品研发文档关键词抽取问题,提出了 BERT-BiLSTM-TFIDF 关键词自动抽取方法,基于BERT-BiLSTM设计句
2、权重模型计算各词语所在句子的句权重,同时添加词性权重以及外部语料库以改进TFIDF算法。本文提出的方法改善了现有关键词自动抽取方法没有合理利用词语的语义信息、上下文关系信息的缺点,经过实验证实具有较好的效果。关键词:关键词抽取;产品研发文档;BERT-BiLSTM-TFIDF中图分类号:TP 391.1;TH 122 文献标识码:AKeyword Extraction for Product Research and Development Documents Using BERT-BiLSTM-TFIDFLU Xiaoyan,ZHENG Yu*,ZAN Xin(School of Mecha
3、nical and Power Engineering,Shanghai Jiaotong University,Shanghai 200240,China)Abstract:Most of the existing internal knowledge management systems of manufacturing enterprises select the document labels manually,which is inefficient.Extracting keywords automatically to generate document labels using
4、 natural language processing technology contributes to the intelligentization of the knowledge management system.For the keyword extraction of automobile research and development documents,this paper proposed the BERT-BiLSTM-TFIDF keyword extraction model.This proposed model added sentence weights a
5、nd external corpus to improve TFIDF method.The sentence weights were calculated with a designed BERT-BiLSTM model.The proposed keyword extraction method has improved the shortcomings that the existing keyword extraction methods could not make use of the semantic information and context of the word.T
6、he proposed BERT-BiLSTM-TFIDF method achieves a good result through experimental verification.Key words:keyword extraction;product research and development documents;BERT-BiLSTM-TFIDF文章编号:1007-5429(2023)02-0099-08DOI:10.19495/ki.1007-5429.2023.02.011收稿日期:2022-06-22基金项目:国家科技支撑计划课题(2015BAF18B00);国家自然科
7、学基金资助项目(51505286);国家工信部智能制造专项(MC-201720-Z02)作者简介:卢啸岩(1996),江苏宿迁人,硕士研究生,主要研究方向为智能制造与人工智能。E-mail:ME。*通信作者:郑宇,副教授,主要研究方向为制造信息工程与产品全生命周期管理。E-mail:。-99第 28 卷 卢啸岩,等:基于BERT-BiLSTM-TFIDF的产品研发文档关键词抽取方法1 引言 产品研发文档包括项目文件、基础技术教程、行业标准规范等。为了有效管理产品研发知识文档,许多制造业企业逐步搭建内部知识管理系统。知识管理系统是一个企业对其内部的所有知识文本进行统一的收集存储并可以共享的管理信
8、息系统。如上汽大众搭建的“E知识管理系统”,企业内部的用户可以登录企业知识管理系统、上传知识文档、检索文档或者阅读系统推荐的文档。企业通常积累了大量专业性较强的产品研发类文档,对于这些文档的应用,大多存在着检索效率低下、智能化程度不足等问题。其中文档标签的提取对于提高检索效率及查阅效率有着重要意义,利用标签可辅助实现文档的智能检索、相关性推荐等。标签的提取是文本智能化应用的基础工作。人工选取标签耗时并且带有较多的主观性,如何应用自然语言处理技术自动抽取文档关键词以生成文档标签,是企业知识管理系统智能化的关键。关键词是指可以简洁、准确地描述文档主题或主题的某个方面的词语1。关键词抽取方法可以分为
9、有监督关键词抽取和无监督关键词抽取。无监督关键词抽取技术不需要人工标注的语料,通过选取特征计算每个词的权重并选取权值最高的固定个数单词作为关键词,常见的方法如词频反文档频率(term frequency-inverse document frequency,TFIDF)算法、TextRank算法、隐含狄利克雷分布(latent Dirichlet allocation,LDA)算法等。有监督学习通常将关键词抽取看作是二元分类问题,用于关键词抽取的分类算法通常有支持向量机(support vector machine,SVM)、最大熵模型(maximum entropy,ME)、隐马尔可夫模型(
10、hidden Markov model,HMM)、条件随机场模型(conditional random field,CRF)等 2。相对于无监督学习方法,有监督学习方法容易获得更好的关键词抽取效果,但现有的方法存在着没有利用词语的语义信息、上下文关系信息等问题。产品研发文档具有专业性较强、词汇领域较广的特点,针对此类文档的特点,本文提出了BERT(bidirectional encoder representations from transformers)-BiLSTM(bi-directional long short-term memory)-TFIDF(term frequency-i
11、nverse document frequency)算法用于产品研发类文档的标签自动提取。在对文本进行分句、分词等预处理后,应用 BERT-BiLSTM 算法设计句贡献权重模型,计算出每个词所在句子的句权重,同时添加外部语料库以改进 TFIDF 算法,解决了现有关键词自动抽取方法没有考虑本文词语的语义信息、上下文关系信息等问题,经过实验验证了在产品研发文档关键词自动抽取的任务上有着较好的效果。2 相关研究 国内外的众多学者已经针对关键词抽取问题展开了大量研究,根据是否需要标注训练语料可以把关键词抽取方法分为两大类:有监督关键词抽取和无监督关键词抽取。有监督抽取方法将关键词抽取任务转化为“关键词
12、”“非关键词”的二元分类问题,设计并训练分类 模 型 以 提 取 文 本 关 键 词。WITTE 等3和TURNEY4分别设计了KEA系统和基于遗传算法的GenEx系统,其中:GenEx系统选择词频和词性信息作为特征,应用决策树作为分类器;KEA系统选择TFIDF值以及词首次在文章中出现的位置作为输入特征,应用朴素贝叶斯方法作为分类器。HULTH5在 FRANK 等6的基础上添加了语言学知识作为特征,提高了论文摘要中关键词的抽取效果。有监督学习方法需要人工标注高质量的训练数据。现有的有监督学习方法大多以词语的位置信息和词性等作为特征,未能有效利用词语的语义信息,造成模型的性能较差7。无监督的关
13、键词抽取方法通过人工设置权重指标,计算每个词的权重,并选择权重排序前k个词语作为关键词。无监督方法不需要大量标注好的语料库,是近年来研究和应用的重点,其主流方法可归纳为以下3种:基于主题模型的关键词抽取、基于词图模型的关键词抽取、基于统计特征的关键词抽取。基于主题模型方法即通过推理隐藏在其内部的“文档-主题”和“主题-词语”分布抽取关键词。DAVID 等8的研究利用LDA模型中主题和词的分布情况,计算词语的权重,抽取了文本关键词。基于词图模型的方法通过构建文档的语言网络图抽取关键词,典型的算法包括-100第 2期工 业 工 程 与 管 理TextRank,其思想来源于PAGE等9。顾益军和夏天
14、10提出TextRank与LDA相结合的算法,该算法在文本集主题分布规律明显时能显著提高提取效果。基于统计特征的关键词抽取方法计算文档中词语的统计特征以计算关键词权重,按照权重提取特征量化指标的前几位词语作为关键词,最常用的是TFIDF算法。TFIDF算法计算候选词的词频以及逆词频的乘积作为权重,方法简单,但存在着无法反映语义信息等缺点。有大量研究针对TFIDF方法进行改进,如Qin等 11 提出了负采样-词频反文档频率(negative sampling-term frequency-inverse document frequency,NEG-TFIDF)方法,利用反例的特征权重来优化模型
15、。自然语言处理技术以及深度学习的发展为关键词自动抽取中利用语义信息、上下文关系信息等问题提供了较好的解决方法。如WEN等12将Word2vec提取词向量应用于TextRank方法,使用文字预处理模型提取语义信息,经过验证具有词相关性加权的TextRank算法可以提高关键词抽取的精度。同时应用于时序数据的深度学习模型在处理语言任务中也有不错的应用,如陈伟等13将BILSTM-CRF模型应用于较短文本的关键词自动抽取,在短视频标题的关键词抽取应用场景下取得了较好的效果。3 BERT-LSTM-TFIDF关键词抽取模型 3.1抽取框架本文设计的BERT-LSTM-TFIDF关键词抽取模型抽取框架如图
16、1所示。首先,对产品研发文档语料库进行预处理,通过中文分词生成候选关键词;接着,应用基于BERT-LSTM的句贡献权重模型计算出文章中每个语句的句权重(代表语句对文章的重要权重);最后,结合每个候选关键词所在句的句权重及包含不同主题文档的外部语料库改进TFIDF算法抽取出关键词。外部语料库用以缓解TFIDF中逆词频计算算法没有考虑词语在文档集合类间和类内的分布情况,从而导致在产品研发文档中部分专业词汇IDF值较低的情况。3.2数据预处理本文在对文本分词以生成候选关键词库之前,对文本进行分句处理从而将文章表示成语句的有序序列,用于识别分句的中文标点符号包括“,”“。”“?”“!”“;”。在分句后,对每个语句进行文本分词从而将文本转化为词语序列,文本分词是自然语言处理领域的一个基础模块。与英文有空格作为词与词之间的间隔不同的是,中文没有这样的自然分割符,所以将汉语中连续的句子切分为一些易处理的词需要采用中文分词算法。常用的中文分词算法包括THULAC分词器、jieba分词器、Hanlp分词器,本文使用简单广泛并具有较好分词效果的jieba分词器作为分词算法。3.3基于BERT-BiLSTM