1、h t t p:/ww w.j s j k x.c o mD O I:1 0.1 1 8 9 6/j s j k x.2 2 0 1 0 0 0 8 3到稿日期:2 0 2 2-0 1-1 0 返修日期:2 0 2 2-0 7-0 5基金项目:深圳市科技计划项目(J S G G 2 0 2 2 0 3 0 1 0 9 0 4 0 5 0 0 9)T h i sw o r kw a ss u p p o r t e db yt h eS h e n z h e nS c i e n c ea n dT e c h n o l o g yP r o g r a m(J S G G 2 0 2 2
2、0 3 0 1 0 9 0 4 0 5 0 0 9).通信作者:殷光强(y i n g q u e s t c.e d u.c n)基于T r a n s f o r m e r的图文跨模态检索算法杨晓宇李 超陈舜尧李浩亮殷光强电子科技大学公共安全技术研究中心 成都6 1 1 7 3 1(y a n g x y s t d.u e s t c.e d u.c n)摘 要 随着互联网多媒体数据的不断增长,文本图像检索已成为研究热点。在图文检索中,通常使用相互注意力机制,通过将图像和文本特征进行交互,来实现较好的图文匹配结果。但是,这种方法不能获取单独的图像特征和文本特征,在大规模检索后期需要对图
3、像文本特征进行交互,消耗了大量的时间,无法做到快速检索匹配。然而基于T r a n s f o r m e r的跨模态图像文本特征学习取得了良好的效果,受到了越来越多的关注。文中设计了一种新颖的基于T r a n s f o r m e r的文本图像检索网络结构(HA S-N e t),该结构主要有以下几点改进:1)设计了一种分层T r a n s f o r m e r编码结构,以更好地利用底层的语法信息和高层的语义信息;2)改进了传统的全局特征聚合方式,利用自注意力机制设计了一种新的特征聚合方式;3)通过共享T r a n s f o r m e r编码层,使图片特征和文本特征映射到公共的
4、特征编码空间。在M S-C O C O数据集和F l i c k r 3 0 k数据集上进行实验,结果表明跨模态检索性能均得到提升,在同类算法中处于领先地位,证明了所设计的网络结构的有效性。关键词:T r a n s f o r m e r;跨模态检索;特征分层提取;特征聚合;特征共享中图法分类号 T P 3 9 9 T e x t-I m a g eC r o s s-m o d a lR e t r i e v a lB a s e do nT r a n s f o r m e rYAN GX i a o y u,L IC h a o,CHE NS h u n y a o,L IH a
5、o l i a n ga n dY I NG u a n g q i a n gC e n t e r f o rP u b l i cS e c u r i t yT e c h n o l o g y,U n i v e r s i t yo fE l e c t r o n i cS c i e n c ea n dT e c h n o l o g yo fC h i n a,C h e n g d u6 1 1 7 3 1,C h i n a A b s t r a c t W i t ht h eg r o w t ho f I n t e r n e tm u l t i m e
6、 d i ad a t a,t e x t i m a g e r e t r i e v a l h a sb e c o m ear e s e a r c hh o t s p o t.I n i m a g ea n dt e x t r e-t r i e v a l,t h em u t u a l a t t e n t i o nm e c h a n i s mi su s e dt oa c h i e v eb e t t e r i m a g e-t e x tm a t c h i n gr e s u l t sb yi n t e r a c t i n gi
7、m a g ea n dt e x t f e a-t u r e s.H o w e v e r,t h i sm e t h o dc a n n o to b t a i n i m a g e f e a t u r e sa n dt e x t f e a t u r e ss e p a r a t e l y,a n dr e q u i r e s i n t e r a c t i o no f i m a g ea n dt e x tf e a t u r e s i nt h e l a t e r s t a g eo f l a r g e-s c a l er
8、e t r i e v a l,w h i c hc o n s u m e sa l o to f t i m ea n di sn o ta b l et oa c h i e v ef a s tr e t r i e v a l a n dm a-t c h i n g.H o w e v e r,t h ec r o s s-m o d a l i m a g et e x t f e a t u r el e a r n i n gb a s e do nT r a n s f o r m e rh a sa c h i e v e dg o o dr e s u l t sa n
9、 dh a sr e c e i v e dm o r ea n dm o r ea t t e n t i o nf r o mr e s e a r c h e r s.T h i sp a p e rd e s i g n san o v e lT r a n s f o r m e r-b a s e dt e x t i m a g er e t r i e v a ln e t w o r ks t r u c t u r e(HA S-N e t),w h i c hm a i n l yh a s t h e f o l l o w i n g i m p r o v e m
10、e n t s:ah i e r a r c h i c a lT r a n s f o r m e r c o d i n gs t r u c t u r e i sd e s i g n e dt ob e t t e ru t i-l i z et h eu n d e r l y i n gg r a mm a t i c a l i n f o r m a t i o na n dh i g h-l e v e l s e m a n t i c i n f o r m a t i o n;t h e t r a d i t i o n a l g l o b a l f e a
11、 t u r e a g g r e g a t i o nm e t h o di s i m p r o v e d,a n dt h es e l f-a t t e n t i o nm e c h a n i s mi su s e dt od e s i g nan e wf e a t u r ea g g r e g a t i o nm e t h o d;b ys h a r i n gt h eT r a n s f o r m e rc o d i n g l a y e r,i m a g e f e a t u r e sa n dt e x t f e a t u
12、 r e sa r em a p p e dt oac o mm o nf e a t u r ec o d i n gs p a c e.F i n a l l y,e x p e r i m e n t sa r ec o n d u c t e do nt h eM S-C O C Oa n dF l i c k r 3 0 kd a t a s e t s,t h e c r o s s-m o d a l r e t r i e v a l p e r f o r m a n c eh a sb e e n i m p r o v e d,a n d i t i s i na l e
13、 a d i n gp o s i t i o na m o n gs i m i l a ra l g o r i t h m s.I t i sp r o v e dt h a t t h ed e s i g n e dn e t w o r ks t r u c t u r e i se f f e c t i v e.K e y w o r d s T r a n s f o r m e r,C r o s s-m o d a l r e t r i e v a l,H i e r a r c h i c a l f e a t u r ee x t r a c t i o n,F
14、e a t u r ea g g r e g a t i o n,F e a t u r es h a r e 1 引言目前,跨模态检索受到越来越多的关注,其目的是从不同的模态中搜索语义相似的样本,特别是互联网上图像内容的爆炸式增长给图像文本的准确检索带来了巨大的挑战。本文重点研究了文本到图像的检索,也希望能对其他跨模态检索任务有所启发。文本图像检索本质是要对图像和文本这两个模态的样本分别进行编码以得到其语义表示,同时还需利用相应的相似性计算方法来计算这些语义表示之间的相似度。现有的文本图像检索方法主要包括跨模态相似性度量方法和公共空间特征学习方法,其大致结构如图1所示。如图1(a)所示,跨模
15、态相似度度量方法的主要思路是将图文特征进行融合,再经过隐层,目的是让隐层学习到可以度量跨模态相似度的函数。其优点是检索精度较高,因为图文信息融合之后提供了很多或是互补或是对齐的特征信息;缺点是检索速度较慢。当用户输入一个文本查询,系统需要在线地将系统中的所有图像与文本成对地输入模型中,才能得到文本与每个图像的相似度分数。如图1(b)所示,公共空间特征学习方法是将图像和文本映射到一个公共空间中,得到多模态表示即最后一层的表示,从而直接使用余弦距离计算其相似度。图像和文本相互独立,没有交互,希冀于学习到一个优秀的表示就可以进行相似度度量。这种方法的优点是检索效率高,系统可以提前得到图像和文本的语义
16、表示,进行离线保存,用户输入一个文本查询,直接与保存好的图像表示进行相似度计算即可;缺点是由于缺少交互,检索精度相对较低。图1 图文检索方法F i g.1 I m a g e-T e x t r e t r i e v a lm e t h o d s在公共空间特征学习架构中,本文提出了一种新的基于T r a n s f o r m e r的图文检索网络结构(H i e r a r c h i c a lA g g r e g a t i o nS h a r i n g-N e t w o r k,HA S-N e t),其贡献有以下几点:(1)特征分层提取(H):根据T r a n s f o r m e r结构中不同编码层的注意力分配特性,不同层级提取的特征关注点不相同1-2。例如,较低层中的特征倾向于使用基本句法表示对更多局部内容进行编码;更高层的特征可以捕获更复杂的语义信息,通常会产生更高级别的语义表示,如文献3-4 所述。基于这些特点,本文提出了分层T r a n s f o r m e r编码结构来实现文本图像跨模态检索。(2)特征聚合模块(A):全局特征与局部特征之间有