收藏 分享(赏)

多层CNN特征融合及多分类...合预测的多模态虚假信息检测_梁毅.pdf

上传人:哎呦****中 文档编号:2516244 上传时间:2023-06-27 格式:PDF 页数:10 大小:1.32MB
下载 相关 举报
多层CNN特征融合及多分类...合预测的多模态虚假信息检测_梁毅.pdf_第1页
第1页 / 共10页
多层CNN特征融合及多分类...合预测的多模态虚假信息检测_梁毅.pdf_第2页
第2页 / 共10页
多层CNN特征融合及多分类...合预测的多模态虚假信息检测_梁毅.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 多层C N N特征融合及多分类器混合预测的多模态虚假信息检测*梁 毅1,2,吐尔地托合提1,2,艾斯卡尔艾木都拉1,2(1.新疆大学信息科学与工程学院,新疆 乌鲁木齐 8 3 0 0 1 7;2.新疆信号检测与处理重点实验室,新疆 乌鲁木齐 8 3 0 0 1 7)摘 要:针对现有的多模态虚假信息检测方法很少对多模态特征在特征层面进行融合,同时忽略了多模态特征后期融合作用的问题,提出了一种基于C NN多模态特征融合及多分类器混合预测的虚假信息检测模型。首次将多层C NN应用于多模态特征融合,模型首先用B E R T和S w i n-t r a n s f o r m e r提取文本和图像特征

2、;随后通过多层C NN对多模态特征在特征层面进行融合,通过简单拼接对多模态特征在句子层面进行融合;最后将2种融合特征输入到不同的分类器中得到2个概率分布,并将2个概率分布按比例进行相加得到最终预测结果。该模型与基于注意力的多模态分解双线性模型(AMF B)相比,在W e i b o数据集和T w i t t e r数据集上的准确率分别提升了6.1%和4.3%。实验结果表明,所提模型能够有效提高虚假信息检测的准确率。关键词:虚假信息检测;多模态;后期融合;多层C NN;多分类器中图分类号:T P 3 9 1.1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-

3、1 3 0 X.2 0 2 3.0 6.0 1 6M u l t i-m o d a l f a l s e i n f o r m a t i o n d e t e c t i o n v i a m u l t i-l a y e r C N N-b a s e d f e a t u r e f u s i o n a n d m u l t i-c l a s s i f i e r h y b r i d p r e d i c t i o nL I ANG Y i1,2,T u r d i T o h t i1,2,A s k a r H a m d u l l a1,2(1.S

4、 c h o o l o f I n f o r m a t i o n S c i e n c e a n d E n g i n e e r i n g,X i n j i a n g U n i v e r s i t y,U r u m q i 8 3 0 0 1 7;2.X i n j i a n g K e y L a b o r a t o r y o f S i g n a l D e t e c t i o n a n d P r o c e s s i n g,U r u m q i 8 3 0 0 1 7,C h i n a)A b s t r a c t:A i m i

5、 n g a t t h e p r o b l e m t h a t t h e e x i s t i n g m u l t i-m o d a l f a l s e i n f o r m a t i o n d e t e c t i o n m e t h o d s r a r e l y f u s e m u l t i-m o d a l f e a t u r e s a t t h e f e a t u r e l e v e l a n d i g n o r e t h e l a t e f u s i o n e f f e c t o f m u l t

6、 i-m o d a l f e a-t u r e s,a f a l s e i n f o r m a t i o n d e t e c t i o n m e t h o d b a s e d o n C NN m u l t i-m o d a l f e a t u r e f u s i o n a n d m u l t i-c l a s s i f i e r h y b r i d p r e d i c t i o n i s p r o p o s e d.T h i s m e t h o d a p p l i e s m u l t i-l a y e r

7、C NN t o m u l t i-m o d a l f e a t u r e f u s i o n f o r t h e f i r s t t i m e.T h e m o d e l f i r s t u s e s B E R T a n d S w i n-t r a n s f o r m e r t o e x t r a c t t e x t a n d i m a g e f e a t u r e s,a n d t h e n u s e s m u l t i-l a y e r C NN t o f u s e m u l t i-m o d a l

8、f e a t u r e s a t t h e f e a t u r e l e v e l.M o d a l f e a-t u r e s a r e f u s e d a t t h e s e n t e n c e l e v e l.F i n a l l y,t h e t w o f u s i o n f e a t u r e s a r e i n p u t i n t o d i f f e r e n t c l a s s i f i e r s t o o b t a i n t w o p r o b a b i l i t y d i s t r

9、i b u t i o n s,a n d t h e t w o p r o b a b i l i t y d i s t r i b u t i o n s a r e a d d e d p r o p o r t i o n a l l y t o o b t a i n t h e f i n a l p r e d i c t i o n r e s u l t.C o m p a r e d w i t h t h e a t t e n t i o n-b a s e d m u l t i-m o d a l f a c t o r i z a t i o n b i l

10、i n e a r m o d e l(AMF B),t h e a c c u r a c y o f t h i s m o d e l i s i m p r o v e d b y 6.1%a n d 4.3%o n t h e W e i b o d a t a s e t a n d T w i t t e r d a t a s e t,r e s p e c t i v e l y.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e p r o p o s e d m o d e l c a n e

11、 f f e c t i v e l y i m p r o v e t h e a c c u r a c y o f f a l s e i n f o r m a t i o n d e t e c t i o n.K e y w o r d s:f a l s e i n f o r m a t i o n d e t e c t i o n;m u l t i-m o d a l;l a t e f u s i o n;m u l t i-l a y e r C NN;m u l t i-c l a s s i f i e r*收稿日期:2 0 2 2-0 8-3 1;修回日期:2

12、0 2 2-1 0-2 8基金项目:国家自然科学基金(6 2 1 6 6 0 4 2,U 2 0 0 3 2 0 7);新疆维吾尔自治区自然科学基金(2 0 2 1 D 0 1 C 0 7 6);国防科技基金加强计划(2 0 2 1-J C J Q-J J-0 0 5 9)通信作者:吐尔地托合提(t u r d y x j u.e d u.c n)通信地址:8 3 0 0 1 7 新疆乌鲁木齐市水磨沟区华瑞街7 7 7号新疆大学信息科学与工程学院A d d r e s s:S c h o o l o f I n f o r m a t i o n S c i e n c e a n d E n

13、 g i n e e r i n g,X i n j i a n g U n i v e r s i t y,7 7 7 H u a r u i S t r e e t,S h u i m o g o u D i s t r i c t,U r u m q i 8 3 0 0 1 7,X i n j i a n g,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.

14、4 5,N o.6,J u n.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 0 8 7-1 01 引言随着社交网络的发展,信息的传播速度飞快地提升,在方便人们进行社交的同时也为虚假信息的扩散提供了一定的便利1,2。虚假信息严重损害了媒体的公信力,侵害了大众的知情权、参与权和监督权,严重时还会扰乱社会秩序,造成人们的财产损失,引发公众的恐慌,对社会造成严重的不良影响。例如,2 0 1 1年因日本福岛核泄漏事件而产生的含碘食物可预防核辐射的谣言,该谣言使得大家疯狂抢购食盐,不仅造成资源浪费还扰乱了社会的安稳。因此,如何在早期对虚假信息进行检测成为了近期的研

15、究热点。早期的信息多为纯文本的形式,因此早期的方法主要是通过从文本内容中提取文本特征来对虚假信息进行检测3,4。随着社交媒体的发展,信息已经从纯文本的形式向多媒体的形式转变5 7,现有的信息多为多媒体的形式,同时有研究发现,将不同模态的特征进行融合能有效提升检测效率。因此,最近在虚假信息检测领域的研究以多模态的方法为主。然而现有的多模态方法存在一定的局限性。首先,常用的融合方法有简单拼接、注意力机制、双线性池和自编码器4种,其中,简单拼接、双线性池和自编码器是对多模态特征在句子层面的融合,注意力机制是对多模态特征在单词层面的融合,现有的模型仅仅对多模态特征进行句子层面的融合或者单词层面的融合,

16、没有同时从2个层面对多模态特征进行融合,并且没有对多模态特征在特征层面进行融合。其次,对于文本进行特征提取,大多数依赖于双向门控循环单元B i-G RU(B i-G a t e d R e c u r r e n t U n i t)每一个时间步的拼接输出,然而,由于特征提取过程缺少相应事实知识的参与,这类方法对帖子文本中命名实体的理解能力有限,进而 难以充分捕 捉虚假信息 语义层面 的线索8。图像特征的提取多依赖于VG G 1 9(V i s u a l G e o m e t r y G r o u p 1 9)9,该方法需要的参数量较大,训练时需要大量的计算资源。同时,通过这2个模型提取到的特征与现有一些模型相比质量较低。本文的主要工作如下所示:(1)同时对多模态的特征在句子和特征层面进行融合,并且探究了新的多模态特征在特征层面的融合方法。使用C NN(C o n v o l u t i o n a l N e u r a l N e t-w o r k)对多模态特征在特征层面进行融合,并证明使用C NN来对多模态特征进行融合是有效的。(2)针对从单模态信息中提取出的单模态特征的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2