1、 文章编号:1 6 7 3-5 1 9 6(2 0 2 3)0 1-0 1 0 3-0 7基于词-标签概率的多标签文本分类研究赵 宏*,郑厚泽,郭 岚(兰州理工大学 计算机与通信学院,甘肃 兰州 7 3 0 0 5 0)摘要:针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种C NN(c o n v o l u t i o n a ln e u r a l n e t w o r k s)结合B i-L S TM(b i-d i r e c t i o n a l l o n gs h o r t-t e r m m e m o r y)的模型.首先,通过C
2、 NN网络和最大池化提取文本的特征;然后,利用训练的L a b e l e d-L D A(l a b e l e dl a t e n td i r i c h l e ta l l o c a t i o n)模型获取所有词与标签之间的词-标签概率信息;接着,使用B i-L S TM网络和C NN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F 1值.关键词:多标签文本分类;卷积神经网络;双向长短期记忆网络;标签的隐狄利克雷分布中图分类号:T P 3
3、 8 9.1 文献标志码:AM u l t i-l a b e l t e x t c l a s s i f i c a t i o nb a s e do nw o r d-l a b e l p r o b a b i l i t yZ HAO H o n g,Z HE N G H o u-z e,GUOL a n(S c h o o l o fC o m p u t e ra n dC o mm u n i c a t i o n,L a n z h o uU n i v.o fT e c h.,L a n z h o u 7 3 0 0 5 0,C h i n a)A b s t r
4、 a c t:M u l t i-l a b e l t e x t c l a s s i f i c a t i o n i so n eo f t h e i m p o r t a n t t a s k s i nt h e f i e l do fn a t u r a l l a n g u a g ep r o-c e s s i n g,t h eg o a l o fw h i c h i s t o f i n d t h e l a b e l s u b s e t a s s o c i a t e dw i t h t h e t e x t f r o mag
5、i v e n l a b e l s e t.A i m i n ga t t h ep r o b l e mo f h o wt oe f f e c t i v e l ye x t r a c t t e x t f e a t u r e s a n do b t a i n t h ep o t e n t i a l c o r r e l a t i o nb e t w e e n l a b e l si np r o c e s s i n gm u l t i-l a b e l t e x tc l a s s i f i c a t i o n,am o d e
6、lo fc o n v o l u t i o n a ln e u r a ln e t w o r k s(C NN)c o m b i n e dw i t hb i-d i r e c t i o n a l l o n gs h o r t-t e r m m e m o r y(B i-L S TM)i sp r o p o s e dt op r o c e s sm u l t i-l a b e l t e x tc l a s s i f i c a-t i o n.F i r s t l y,t e x t f e a t u r e sa r ee x t r a c
7、t e dt h r o u g ht h eC NNn e t w o r ka n dm a xp o o l i n g.T h e n,t h et r a i n e dL a b e l e dL a t e n tD i r i c h l e tA l l o c a t i o n(l a b e l e dL D A)m o d e l i su s e d t oo b t a i n t h ew o r d-l a b e l p r o b a b i l i t y i n f o r-m a t i o no f a l lw o r d sa n dl a b
8、 e l s.I na d d i t i o n,t h eB i-L S TMn e t w o r ka n dC NNn e t w o r ka r eu s e dt oe x t r a c tt h ew o r d-l a b e l i n f o r m a t i o nf e a t u r eo f e a c hw o r d i nt h ec u r r e n tp r e d i c t i o nt e x t.F i n a l l y,c o m b i n e dw i t ht h ee x t r a c t e dt e x t f e a
9、t u r e s,t h e l a b e l s e ta s s o c i a t e dw i t ht h et e x t i sp r e d i c t e d.T h ee x p e r i m e n t a l r e s u l t ss h o wt h a t t h eF 1v a l u eo f t h em o d e l c a nb ee f f e c t i v e l yi m p r o v e db yu s i n gt h ew o r d-l a b e lp r o b a b i l i t yt og e t t h ec o
10、 r r e l a t i o n i n f o r m a t i o nb e t w e e nt h ew o r d sa n d l a b e l s i nt h e t e x t.K e yw o r d s:m u l t i-l a b e l t e x t c l a s s i f i c a t i o n;c o n v o l u t i o n a ln e u r a ln e t w o r k s;b i-d i r e c t i o n a l l o n gs h o r t-t e r mm e m o r y;l a b e l e d
11、 l a t e n td i r i c h l e t a l l o c a t i o n 文本分类是自然语言处理中的重要内容,通过对文本的准确分类,可以有效地对文本进行管理和检索,是处理海量文本的常用手段.传统的文本分类方法通过给文本赋予单个标签实现文本的二分类或多分类.如文本情感二分类1通过给文本赋予一个 收稿日期:2 0 2 1-0 9-1 0 基金项目:国家自然科学基金(6 2 1 6 6 0 2 5),甘肃省重点研发计划(2 1 Y F 5 GA 0 7 3)通讯作者:赵 宏(1 9 7 1-),男,甘肃西和人,博士,教授,博导.E m a i l:z h a o h l u
12、 t.e d u.c n积极或者消极的标签,实现文本的分类;文本情感多分类1通过给文本赋予高兴、平静、伤心、愤怒等标签中的一个标签,实现文本的多分类.这两类任务共同点是每段文本仅有一个标签,通过标签实现文本分类.给文本赋予的单个标签可以大致表达文本的内容,实现文本分类,但单个标签对文本的表达不够细致.如果给文本赋予多个标签,则多个标签将从多个角度对文本进行表达,实现对文本内容较为细致的第4 9卷第1期2 0 2 3年2月兰 州 理 工 大 学 学 报J o u r n a l o fL a n z h o uU n i v e r s i t yo fT e c h n o l o g yV
13、o l.4 9 N o.1F e b.2 0 2 3表达.例如,如果给一段解读国家政策的文本赋予政治、经济、国策等多个标签,则这些标签在有效代表文本内容的同时可以细化文本的分类.多标签文本分类在标签推荐2、信息检索3和垃圾邮件分类4等实际应用中具有重要的价值.1 相关工作传统的多标签文本分类主要使用问题转换和算法适应两种基于机器学习的方法.问题转换方法将多标签文本分类问题转换为B R5(b i n a r yr e l e v a n c e)或L P6(l a b e l p o w e r s e t)方法.B R方法通过为每个标签建立互相独立的二分类器,将多标签文本分类问题转换为多个文本
14、二分类问题.在预测文本标签时,如果当前二分类器预测结果为正,则认为文本具有该二分类器所代表的标签.该方法中,文本需要通过所有的二分类器,判断文本所具有的标签,实现文本的多标签分类.B R方法的特点是结构简单,容易计算,但是B R方法忽略了标签之间的关系,使得预测的性能下降.L P方法将多标签文本分类问题转换为文本多分类问题,其将数据集中的标签组织成包含不同标签的多个标签子集,从而将多标签文本分类问题转换为文本多分类问题.L P方法简单直接,但是,由于不同标签子集所属的文本数量差距较大,导致样本不平衡,并且,由于文本所属类别依赖于训练集中的标签集,所以,L P方法无法有效预测包含训练集中未出现标
15、签的文本.算法适应方法对常用的机器学习算法进行改进以适应多标签文本分类任务.经典算法包括ML-k NN7(m u l t i-l a b e lk-n e a r e s tn e i g h b o r)和r a n k-S VM8(r a n k i n g s u p p o r tv e c t o r m a c h i n e).ML-k NN对传统的k NN算法改进以适应多标签文本分类问题.ML-k NN通过确定每个实例最近的k个实例,然后通过这些实例的标签集合使用最大后验概率来预测新实例的标签集.ML-k NN简单、高效,应用广泛,但是未考虑标签之间的相关性信息.R a n k
16、-S VM采用“最大间隔”策略,通过定义一组线性分类器最小化r a n k i n g l o s s来处理多标签文本分类任务.R a n k-S VM方法使用排名解决了类别不平衡和排序损失,但是具有计算复杂度高和预测误差大的缺点.近年来随着深度学习技术的快速发展,深度学习逐渐应用到多标签文本分类中.K u r a t a等9利用标签共现信息通过全连接网络建立标签之间的相关性,引入C NN(c o n v o l u t i o n a ln e u r a ln e t w o r k s)处理多标签文本分类问题.但C NN由于受到卷积窗口大小的限制,无法捕获文本的长期依赖信息,使得分类效果欠佳.C h e n等1 0将C NN和R NN(r e c u r r e n tn e u r a ln e t w o r k)结合,使用C NN网络提取文本的特征,使用R NN预测文本的标签序列,但由于忽略了标签之间的相关性,效果仍然不够理想.基于序列到序列(S e q 2 S e q)方法的出现极大地提高了多标签文本分类任务的精度,其中N a m等1 1-1 2利用序列到序列模型对文本内