收藏 分享(赏)

科技资源文本层次多标签分类方法_王岳.pdf

上传人:哎呦****中 文档编号:2571377 上传时间:2023-07-24 格式:PDF 页数:7 大小:1.45MB
下载 相关 举报
科技资源文本层次多标签分类方法_王岳.pdf_第1页
第1页 / 共7页
科技资源文本层次多标签分类方法_王岳.pdf_第2页
第2页 / 共7页
科技资源文本层次多标签分类方法_王岳.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Computer Engineering and Applications计算机工程与应用2023,59(13)随着科技大数据的发展,越来越多的科技资源(论文、专利)出现在网络中。由于科技资源涉及的学科领域非常广泛,其分类体系往往具有层次结构,科技资源文本的分类适合使用层次多标签分类来解决。同时,相较于普通的文本分类,科技资源文本往往带有关键词字段,如何利用好关键词字段来对科技资源文本分类进行模式识别与人工智能科技资源文本层次多标签分类方法王岳1,李雅文2,李昂11.北京邮电大学 计算机学院(国家示范性软件学院)智能通信软件与多媒体北京市重点实验室,北京1008762.北京邮电大学 经济管理学

2、院,北京 100876摘要:科技资源文本层次多标签分类(hierarchical multi-label text classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中。提出基于注意力机制的科技资源文本层次多标签分类算法(academic resourcetext hierarchical multi-label classification based on attention,AHMCA)。通过整合文本、关键词、层次结构等特征构造注意力机制层,对HMCN-F(hierarchical multi-label classification networ

3、k-feed-forward)网络进行改进,将科技资源文档逐级分类到最相关的类别中。细节上,主要利用word2vec与BiLSTM来获得文本、关键词、层次结构的嵌入向量和隐向量表示;利用层次注意力机制捕获关键词、标签层次结构与文本词向量之间的关联关系来强化重点词向量的权重,从而生成特定于层级的文档嵌入向量,替代HMCN-F中原始的文本嵌入。实验结果验证了AHMCA方法的有效性。关键词:层次多标签分类;注意力机制;BiLSTM;word2vec文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2203-0286Academic Resource Tex

4、t Hierarchical Multi-Label ClassificationWANG Yue1,LI Yawen2,LI Ang11.Beijing Key Laboratory of Intelligent Telecommunication Software and Multimedia,School of Computer Science,Beijing University of Posts and Telecommunications,Beijing 100876,China2.School of Economics and Management,Beijing Univers

5、ity of Posts and Telecommunications,Beijing 100876,ChinaAbstract:The hierarchical multi-label text classification of scientific resource is used to assign scientific resource texts toa label system with a hierarchical structure.A text-level multi-label classification algorithm for scientific resourc

6、es basedon attention mechanism is proposed.The attention mechanism layer is constructed by integrating features such as text,keywords,and hierarchy message,which can be used to improve HMCN-F network to classify scientific and technologicalresource documents into the most relevant categories.In deta

7、il,word2vec and BiLSTM are mainly used to obtain theembedded vector and latent vector representation of text,keywords and hierarchical structures;the hierarchical attentionmechanism is used to capture the correlation between keywords,label hierarchy and text word vectors to strengthen keywords.The w

8、eight of the vector is used to generate a hierarchy-specific document embedding vector,which replaces theoriginal text embedding in HMCN-F.The experimental results verify the effectiveness of the AHMCA method.Key words:hierarchical multi-label classification;attention mechanism;BiLSTM;word2vec基金项目:国

9、家重点研发计划项目(2018YFB1402600);国家自然科学基金(61772083,61802028)。作者简介:王岳(1997),男,硕士研究生,CCF会员,研究方向为自然语言处理、深度学习,E-mail:;李雅文(1991),女,副教授,主要研究方向为企业创新、人工智能、大数据;李昂(1994),男,博士,CCF会员,研究方向为信息检索、数据挖掘、机器学习等。收稿日期:2022-03-14修回日期:2022-06-27文章编号:1002-8331(2023)13-0092-07922023,59(13)优化是一个需要解决的问题。层次多标签分类在现实世界中存在很多应用场景,例如文档归类、

10、新闻分类、科技资源文本分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,这就构成了层次多标签文本分类问题。如何学习和利用这些不同层级的关系并对分类结果从层级关系遵循性的角度进行评价,成为层次多标签分类问题的难点和挑战。本文针对科技资源文本层次多标签分类进行相关研究,基于HMCN-F模型1和科技资源的关键词,提出了基于注意力机制的科技资源文本层次多标签文本分类方法(AHMCA)。利用 word2vec 与 BiLSTM 来获得文本、关键词、层次结构的嵌入向量和隐向量表示。再基于注意力机制捕获关键词、标签层次结构与文本词向量之间的相似

11、权重,基于不同层次标签下生成的相似度权重获得特定于层级的文档嵌入向量,替代HMCN-F中原始的文本嵌入。本文的主要贡献包括:(1)提出了一种基于注意力机制的科技资源文本层次多标签分类算法,利用层次注意力机制捕获文本词向量与关键词、标签层次结构之间的关联关系,用来生成特定于层级的文档嵌入向量。(2)建立了科技资源关键词与文本词向量之间的相关矩阵,强化了科技资源文本中与关键词相关的词向量的权重。通过BiLSTM来融合上下文信息,在保留上下文信息的同时强化了方法对重点词向量的关注程度。(3)对于不同层级的输入,根据每层的层级标签向量构造特定于层级的文档嵌入向量,通过构造层级标签向量与文本词向量之间的

12、相似度矩阵,计算每个词向量的权重,通过加权平均计算出层级文档嵌入向量。1相关工作在此层次标签体系中选择多个正确的标签,这就构成了层次多标签文本分类问题。如何学习和利用这些不同层级的关系并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战。针对层次多标签分类问题,目前已经做了很多工作。最初,人们提出使用朴素贝叶斯2等多标签分类方法进行层次分类,通过将层次多标签分类问题简化平坦化的多标签问题,仅预测最后一级的类别。然而,这些简单的方法忽略了层次类别结构信息,效果很差。随后,一些方法考虑了标签的层次结构信息,根据所采用的策略将其划分为局部和全局方法。关于局部方法,文献3提出了

13、一种使用分层SVM的分类方法,其中SVM仅在其父类别被标记为正类时才开始学习。文献4-6提出了一种边际方法计算输出类别的最大结构边际。在全局方法上,文献7-9开发了一种称为Clus-HMC的基于树的方法处理整个层次类别结构。文献10尝试使用HMC-LMLP增量训练一组神经网络,每个神经网络负责预测给定级别的类别。文献11提出了一种基于对抗神经网络的全局方法来预测层次结构中的所有类别。文献12提出一个由 Clus-HMC 为基础引入决策树的继承改进HMC。文献13提出基于AdaBoost.MH14的全局方法。文献15以 word2vec 为基础作为模型输入,然后使用不同大小的窗口作为特征提取器进

14、行卷积运算,得到不同层次的文本表示。文献16使用了单词图(graph-of-words)来获取文本中非连续和长距离的语义。然而,上述工作主要关注局部区域或类别标签的整体结构。忽略了层次结构不同级别之间的依赖关系,这导致错误预测的向下传播和类成员不一致性17-19。结合局部和全局方法优点的混合方法已在许多领域中应用,其中,HMCN1,20整合了层次结构中每个层次的预测结果和整体层次结构。然而HMCN未能捕捉到文本和层次结构之间的关联。层次多标签分类方法最重要的步骤之一是从上到下逐级揭示文本与层次结构中每个类别之间的关联,并以此为文本词向量赋予足够的权重,这需要使用到注意力机制21-23。文献24

15、在CNN模型顶部使用注意力机制来引入额外的信息源,用于指导句子嵌入的提取。文献25利用了一种注意力方法,该方法通过使用任一RNN隐藏状态的编码来创建加权向量表示。文献26为序列模型27(例如RNN)设计了一种自我注意机制来代替最大池化或平均步骤,这使得模型能够关注句子的不同方面。2科技资源文本层次多标签分类定义在科技资源文本层次多标签分类中,对于一组文档,每篇文档包含标题、摘要和关键词,该文档期望的分类结果被组织成一个层级结构,下面给出层级结构的相关定义。定义1(层级结构)定义类别集合C=(C1,C2,CH),H为层级的深度。Ci=c1,c2,0,1|Ci是第i层上的可能类别,|Ci是当前层类

16、别的数量,K是类别的总数。定义C上的层级结构作为偏序集(C,)。代表PARENT-OF偏序,它是不对称的、反反身的和传递的:cxCi,cyCj,cxcythencycxcxCl,cxcxcxCi,cyCj,czCk,ifcxcyandcyczthencxcz伴随着标签的M个文档集合可以被表示为X=()D1,L1,()D2,L2,()DM,LM,其中Di=w1,w2,王岳,等:科技资源文本层次多标签分类方法93Computer Engineering and Applications计算机工程与应用2023,59(13)wN表示由N个词组成的文本序列,Li=l1,l2,lH表示Di的标签集合,liCi。HMTC问题可以被公式化为公式(1)。定义2(科技资源层次多标签分类)给定一个文档集合和对应的层次标签结构,目标是利用D和对应的标签结构学习一个分类模型,该模型可以预测层级分类L:()D,L(1)其中是的参数。3基于注意力机制的科技资源文本层次多标签分类算法AHMCA算法的主要框架,如图 1所示。AHMCA主要包含两个部分:第一部分是文档表示与注意力机制层,第二层是HMCN-F层。使用文档

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2