基于图结构的级联注意力视觉问答模型

资源描述

1、2023，59（6）视觉问答（visual question answering，VQA）作为一个新兴研究领域，近年来受到越来越多的关注。VQA需要结合利用计算机视觉（computer vision，CV）和自然语言处理（natural language processing，NLP）两个方面的知识，其任务场景为给定一个图像和与图像相关的文本问题，VQA需要根据图像包含的信息和问题的内容，生成合理的符合自然语言规则的答案1。VQA有许多潜在的应用，最直接的是帮助盲人和视障人士，使他们能够在网络上和现实世界中获得图像信息。更一般地说，VQA可以作为一种查询可视内容的自然方式用于改进人机交互2-3

2、。1相关工作自 2014年第一个 VQA数据集发布之后4，又陆续出现了许多新的数据集，以及实现 VQA 的各种算法。这些算法都需要考虑如何将计算机视觉和自然语言处理技术结合起来，经常使用多模态的融合，也就是图像特征和问题特征这两种模态特征的联合表示。具体来说，可以通过卷积神经网络（CNN）或基于区域的CNN（R-CNN）作为图像特征提取器来获得图像特基于图结构的级联注意力视觉问答模型张昊雨，张德北京建筑大学电气与信息工程学院&建筑大数据智能处理方法研究北京市重点实验室，北京 100044摘要：视觉问答是一个具有挑战性的问题，需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式

3、，先分别计算图像和问题特征，然后再采取不同的技术和策略进行融合。目前，尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型，该模型结合了图学习模块（学习输入图像问题的特定图表示）、图卷积层和级联注意力层，目的是捕捉不同候选框区域图像的空间信息，以及其与问题之间的更高层次的关系。在大规模数据集VQA v2.0上进行了实验，结果表明，跟主流算法相比较，是/否、计数和其他类型问题的回答准确率均有明显提升，总体准确率达到了68.34%，从而验证了提出模型的有效性。关键词：视觉问答；注意力机制；图卷积神经网络；特征融合文献标志码：A中图分类号：TP391d

4、oi：10.3778/j.issn.1002-8331.2110-0115Cascading Attention Visual Question Answering Model Based on Graph StructureZHANG Haoyu,ZHANG DeSchool of Electrical and Information Engineering&Beijing Key Laboratory of Intelligent Processing for Building Big Data,Beijing University of Civil Engineering and Arc

5、hitecture,Beijing 100044,ChinaAbstract：Visual question answering is a challenging problem,which needs to combine computer vision and natural lan-guage processing.Most of the existing methods use dual flow method,which first calculates the image and problem fea-tures,and then adopts different techniq

6、ues and strategies for fusion.At present,it lacks of a higher-level representationthat can directly capture the problem semantics and image spatial relations.This paper proposes a cascaded attention-learning model based on graph structure.The model combines graph learning module（learning the specifi

7、c graph repre-sentation of input image questions）,graph volume layer and cascaded attention layer.The purpose of the model is to cap-ture the spatial information of images in different candidate box regions and the higher-level relationship between themand questions.Experiments are carried out on a

8、large-scale data set VQA v2.0,and the results show that compared withthe mainstream algorithms,the accuracy of yes/no,num and other types of questions are significantly improved.Further-more,the overall accuracy reaches 68.34%,which verifies the effectiveness of the proposed model.Key words：visual q

9、uestion answering;attention mechanism;graph convolutional network;feature fusion基金项目：国家自然科学基金（61871020）。作者简介：张昊雨（1998），男，硕士研究生，CCF会员，研究方向为模式识别与图像处理；张德（1979），通信作者，男，博士，副教授，CCF会员，研究方向为计算机视觉和机器学习，E-mail：。收稿日期：2021-10-10修回日期：2022-03-13文章编号：1002-8331（2023）06-0155-07Computer Engineering and Applications计算

10、机工程与应用155Computer Engineering and Applications计算机工程与应用2023，59（6）征的编码，然后使用循环神经网络（RNN）作为问题特征提取器来获得问题特征的编码。分别获得图像特征和问题特征之后，在这两种模态的特征上应用多模态融合学习，构建图像和问题之间的融合特征向量，实现联合表示。然后，把得到的融合特征向量输入答案预测器，输出问题对应的答案。Fukui等5提出使用双线性池化方法融合两种模态的特征，在不需要显示计算特征向量外积的情况下，把融合特征映射到低维空间。Ben-younes等6提出一种基于张量分解的多模态Tucker融合方法，可以高效地参数化

11、视觉内容和文本内容之间的双线性交互。Yu等7提出一种广义多模态分解高阶池化方法，通过充分利用多模态特征之间的相关性来实现更有效的多模态特征融合。为选出更有辨识力的特征，注意力机制也被应用到VQA网络模型中。Anderson等8提出自底向上的注意力机制，该机制基于Faster CNN从图像中选出推荐目标区域，并转换为特征向量的形式输出。然后，再结合传统的自顶向下的注意力机制，给出各特征节点的权重值。Yang等9提出一种多层堆叠注意力网络，结合问题的语义表示从图像内容中进行逐步推理，以得到答案。吝博强等10使用两层注意力堆叠组成的层次注意力机制，分别关注文本问题特征和图像中的对象特征。虽然注意力机

12、制有助于发现和问题相关度较高的图像内容区域，但当面对较为复杂的VQA任务时，注意力机制的推理能力还是不够。所以，Cadene等11提出了多模态关系型网络，在注意力机制的基础上加入推理单元，把问题特征向量嵌入图像内容表示中，在嵌入过程中不断更新问题语义表示和不同图像内容区域之间的关系。Zhang等12改进软注意力机制，提出计数组件的概念，把注意力权重值转换为目标对象关系图表示，大幅提高了计数类问题的答案预测准确率。近年来，图卷积神经网络（graph convolutional network，GCN）得到了快速发展，旨在将 CNN 推广到图结构数据。GCN是一个相对较新的概念，已有学者将其应用到

13、VQA任务中。Will等13使用GCN建模图像场景中目标对象之间的语义关联，并学习出和问题相关的图结构表示。Zhu等14则提出了在问题引导下基于对象差异的图学习模块，认为在建模语义关联的时候，差异能提供更多的信息。为了更充分地捕获图像中蕴含的可视语义信息，Yang等15提出一种场景图卷积网络（SceneGCN），把对象自身的属性和对象之间的语义关联结合到一起，以此推理正确的答案。GCN的应用提升了VQA深度学习模型的可解释性和有效性，帮助提高了答案预测准确率。本文的思路是以GCN为基础模型结构，融入注意力机制，发挥各自的优势，进一步提升模型的性能。本文提出基于图结构的级联注意力VQA模型，并引

14、入了新的关系编码方式，可以对图像区域各个对象之间的关系进行空间建模，以此来揭示更加细粒度的图像概念，从而提供一个整体的解释。在图学习模块中，使用基于问题的上下文学习图注意力机制，允许将问题的语义信息嵌入到融合编码阶段。这样，关系编码器学习到的特征不仅包含图像中目标对象之间交互的视觉场景，而且纳入了问题中的语义线索，动态地关注每个问题的特定关系类型和实例。在得到第一阶段融合的特征之后，再经过由两种注意力单元组成的级联注意力层对第一阶段的融合特征与文本特征做精细化处理，以此来弥补文本问题特征没有在语义上单独做出关联的差异，提升了模型的整体性能。2模型介绍本文提出一种融合级联注意力的图卷积网络视觉问

15、答模型，以一种新颖的方式结合空间、图像和文本特征。整个模型的网络结构如图1所示。该模型在问题表示的方法上使用单词嵌入和递归神经网络（RNN）。在图像表示的方法上则是由候选框坐标与相对应的图像特征向量组成的成对描述符特征。把文本特征和图极坐标空间信息空间图卷积层级联注意力图学习层候选框特征图像特征文本特征问题编码器输入FasterR-CNN“what colorare her shoes?”图1提出模型的整体结构Fig.1Structure illustration of proposed model1562023，59（6）像组合特征输入到图学习模块学习一个邻接矩阵。这个邻接矩阵使得之后的空

16、间图卷积不仅关注图像中的目标对象，而且关注与问题最相关的对象关系。在空间图卷积的输入中除了从学习模块得到的邻接矩阵，还有从极坐标函数获取的空间信息。空间图卷积得到的融合特征和文本特征作为输入进入到后续的深度级联层网络，最终得出的特征向量输入预测层给出最后的分类答案。2.1输入模块输入模块的任务是获得图像和问题的特征向量。在图像特征方面，使用目标检测器计算输入图像的一组视觉特征8。目标检测器使用Faster R-CNN预训练模型，其中的每个特征提取框作为后续学习的问题表示图中的节点。特征提取框对应产生一个特征嵌入，它是卷积特征图对应区域的平均值。在问题特征方面，使用预先训练好的词库，然后使用基于GRU（gate recurrent unit）单元的动态RNN，将单词嵌入序列编码为单个问题嵌入。2.2图学习模块图学习模块在一个问题上产生一个对应的图像表示。该模块能够学习到依赖于查询和解释性特征之间的复杂关系。该模块输出的图结构表示为带有自循环的节点邻域矩阵，然后再输入到后续的空间图卷积层。在图学习模块中构造无向图G=V,E,A，其中V是图的节点集合，E是需要学习的边集合，A是相应的邻接矩阵

展开阅读全文

基于图结构的级联注意力视觉问答模型_张昊雨.pdf