1、2023,59(6)随着物联网应用的快速发展,提高物联网的安全性也逐渐成为当前关注的重点,如何从大量网络威胁报告中识别和提取威胁攻击,并转换为机器可读取的威胁情报至关重要。最近,研究人员把重点放在了从博客和威胁报告网站的非结构化数据中自动提取战术和技术上。Hahn等1基于攻击链的模型构建了网络安全分析框架来识别网络攻击的风险,Franklin等2选择ATT&CK构建威胁分析工作流。ATT&CK3是由MITRE指定的网络攻击行为的知识库模型。它反映了攻击者生命周期的各个阶段以及他们所知道的目标平台信息。通过将攻击者的行为分为阶段,防御者可以理解攻击者的步骤,并试图理解攻击者的动机。Husari等
2、4应用NLP技术提取威胁行为者、威胁指标,并从非结构化数据生成STIX标准格式的报告,其中应用到的NLP技术主要为多标签文本分类算法。多标签文本分类算法是为给定的文本分配多个标签的任务5,在信息检索6、情感分析7、意图识别8、推荐采用标签组合与融合注意力的多标签文本分类邬鑫珂,孙俊,李志华江南大学 人工智能与计算机学院,江苏 无锡 214122摘要:传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预
3、训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。关键词:多标签文本分类;融合注意力机制;空洞卷积文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2110-0005Multi-Label Text Classification Base
4、d on Label Combination and Fusion of AttentionsWU Xinke,SUN Jun,LI ZhihuaSchool of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi,Jiangsu 214122,ChinaAbstract:Traditional multi-label text classification algorithms are insufficient in the process of mining the associated infor-
5、mation of labels and extracting the discriminative information between texts and labels.Therefore,a multi-label text clas-sification algorithm based on pre-training model of label combination and multi-granularity fusion attention is proposed.Firstly,a text encoder with label relevance is obtained t
6、hrough the pre-training model training of the label combination,then a gated fusion strategy is used to fuse the pre-trained language model and the word vector to obtain word embeddingrepresentations,which are sent to the pre-training encoder to generate a text representation based on label semantic
7、s.Finally,global information and fine-grained semantic information are obtained by self-attention and label attention enhanced bymulti-layer dilation convolution,which are adaptively fused and input to the multi-layer perceptron for multi-label predic-tion.Experimental results on the specific threat
8、 recognition dataset and the two general multi-label text classification data-sets show that the proposed method can effectively capture the association information between labels and texts,and haveachieved significant improvement in F1 value,Hamming loss and recall rate.Key words:multi-label text c
9、lassification;fusion attention mechanism;dilation convolution基金项目:国家自然科学基金(U1836218,61672263)。作者简介:邬鑫珂(1997),女,硕士研究生,研究方向为自然语言处理、信息安全;孙俊(1971),男,博士,教授,博士生导师,CCF会员,研究方向为机器学习、模式识别;李志华(1969),男,博士,副教授,研究方向为云计算、信息安全。收稿日期:2021-10-04修回日期:2022-01-04文章编号:1002-8331(2023)06-0125-09Computer Engineering and Appl
10、ications计算机工程与应用125Computer Engineering and Applications计算机工程与应用2023,59(6)系统9、威胁情报分析10等领域得到广泛的应用。与传统单标签分类不同的是,文本自然而然地与多个标签产生关联,这使得多标签分类任务成为自然语言处理的一项基础且具有挑战性的任务。随着单标签文本分类任务的不断成熟,人们考虑将多标签分类任务看作一系列的单标签分类任务,然而这种过度简化的迁移忽视了标签之间的交互信息,进而导致分类精度较低。由此利用标签关联建模已经成为提高分类性能的主要动力。另一类解决多标签文本分类的方法即为使用深度神经网络,虽然深度神经网络能很
11、好适应大规模数据集,但是它过于依赖文本集表示,在训练过程中容易丢失细粒度信息,且难以捕捉标签与文本之间的关联性,忽视了标签相对于文本的重要性。综上所述,目前多标签分类任务需要重视以下两个方面:(1)如何准确挖掘和利用标签之间的关联性;(2)如何从文本中提取标签的判别信息。因此,本文首先提出了一种基于标签组合的文本预训练模型方法,标签之间的共现关系是可以明确反映标签相关性的重要信号,基于相似标签总是以组合形式出现在相似文本中,采用标签组合的方式采样文本来预训练编码器。然后在多标签文本分类任务中,使用 BERT(bidirectionalencoder representations from t
12、ransformers)11预训练模型获得每个单词的上下文隐表示,再利用门控融合策略(gate fusion)将上下文隐表示与词向量化算法(Word2vec)12得到的词向量进行融合得到最终的词嵌入表示,并送入预训练得到的编码器中生成基于标签语义的文本表征。在此基础上还提出了一种多粒度融合注意力机制,一方面使用自注意力机制得到基于标签的全局信息,另一方面先使用多层空洞卷积获得高层次的语义信息,继而利用多层空洞卷积增强标签注意力捕获细粒度语义信息,最终将全局信息与细粒度语义信息自适应融合送入上层网络。使用多层感知机计算标签得分,最后使用交叉熵损失进行训练。本文的主要贡献如下:(1)提出了基于标签
13、组合的文本预训练模型,利用标签之间的相关性为低频标签提供隐式的补充信息,利用标签之间的互斥关系进行建模,增强标签相关性学习。(2)提出的模型使用多粒度融合注意力机制,通过多层空洞卷积捕获高层次语义信息,用于细粒度标签注意力计算,并与全局信息自适应融合。多粒度融合注意力机制调整了注意力机制的焦点区域,使之更具意义和歧义性。1多标签文本分类算法相关研究传统解决多标签学习问题的方法主要分为两大类,第一类就是问题转换,将多标签学习任务转换为传统的一个或多个单标签学习任务来处理,而完成单标签分类任务最简单且被广泛使用的算法是 binary relevance(BR)13,该方法将多标签学习问题分解为多个
14、独立的二元分类问题。由于这种方法忽视标签之间的相关性,label powerset(LP)14算法为每个可能的标签组成一组新的标记,然后将问题转换为单标签多类别,但在问题转换之后存在样本不平衡的问题。并且这些方法也存在计算效率不高和样本空间过大的挑战。第二类就是算法自适应,将传统的单标签分类算法进行相应的改进来处理多标签数据。利用传统监督模式下的单标签学习理论和实践经验为多标签学习方法提供参考。Rankingsupport vector machine(Rank-SVM)15方法时间里在统计学习理论基础上的机器学习算法,将经典的支持向量机推广到多标签学习中。Multi-label decisi
15、on tree(ML-DT)16的基本思想是采用决策树技术来处理多标签数据,利用熵的信息增益准则递归地构建决策树。Multi-labelK-nearest neighbor(ML-KNN)17使用K近邻算法得到邻近的类别标记情况,再通过最大化后验概率得到位置示例的标记集合。随着深度神经网络的发展,研究者提出了各种基于深度神经网络的多标签文本分类模型,如卷积神经网络(convolutional neural networks,CNN18)等,在这个领域取得了不错的结果,但此类方法只是单独对每个标签使用逻辑回归来实现多标签分类,忽略了标签之间的相关性。除此之外还有一些序列学习模型,如CNN-RNN
16、19和序列生成模型(SGM)20,使用编码器对输入文本进行编码并使用解码器生成可能的标签序列,王浩镔等21在此基础上结合多级特征和混合注意力提取多级特征。但此类方法强依赖于标签顺序,无法对标签之间的关系进行动态建模。刘心惠等22提出胶囊网络和LSTM的联合模型在不考虑标签顺序的情况下达到良好性能。LSAN23也没有使用序列生成模型,而是借助标签注意力机制学习特定于标签的文本表示。本文的方法既避免了对标签顺序的依赖,也挖掘了标签之间的高阶相关性,提取文本与标签的判别信息。2多粒度融合注意力的多标签文本分类算法2.1整体流程本文提出了一种基于标签组合的文本预训练模型与多粒度融合注意力机制的多标签文本分类算法,预训练模型和多标签文本分类模型具体流程分别如图1和图2所示。该算法可以分为两个阶段:预训练阶段和多标签分类任务阶段。在预训练阶段,为了捕捉标签之间的相关性和相异性,基于一个多标签文本可以表示为多1262023,59(6)个标签表示的组合,相关的标签总是以组合形式出现在类似的文本中的基本思想,本文针对标签组合抽取文本,构造和训练标签式文本编码器来实现具有标签感知信息的文本隐表示。在多标签