基于改进的Transfor...ecoder的增强图像描述

资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期0引言图像描述（Image Captioning）处于计算机视觉（Computer Vision，CV）和自然语言处理（Natural Language Processing，NLP）的交叉研究领域，根据图像内容信息自动生成描述性的语句，其能帮助视力障碍的人理解图像内容1-5。对于人类来说，这项任务很容易实现，而对于机器来说具有极大的挑战性，因为机器不仅需要识别图像中的特定对象及其之间的关系，而且还需将所识别对象整合为正确的句子。受机器翻译的启发，当前主流的图像描述方法是基于神经网络的编码器-解码器模型实现的

2、，编码器主要为卷积神经网络（Convolutional Neural Network，CNN）的一些经典模型，用于提取图像内容特征，如 VGGNet、ResNet、EfficientNet 模型6-9。解码器主要为递归神经网络（Recurrent Neural Network，RNN）的经典模型，如LSTM、GRU和Transformer模型，可以将图像内容解码为一句描述语义10-13。其中，2017年提出的Transformer作为近几年图像描述任务中最流行的解码器模型，其基于自注意力机制（Self Attention）以实现输入和输出之间的全局依赖关系，具有高效的并行化处理能力，使得模型训

3、练可以达到突出效果14。Self Attention机制将标签词向量作为输入，词与词之间的语义相关性容易受到先验词的影响，导致描述的语义与原图像有偏差。例如与“鱼”一词相关的是“水”，而不是“地面”，因为在标签训练集中“鱼”和摘要：Transformer的解码器（Transformer_decoder）模型已被广泛应用于图像描述任务中，其中自注意力机制（Self Attention）通过捕获细粒度的特征来实现更深层次的图像理解。本文对Self Attention机制进行2方面改进，包括视觉增强注意力机制（Vision-Boosted Attention，VBA）和相对位置注意力机制（Relat

4、ive-Position Attention，RPA）。视觉增强注意力机制为Transformer_decoder添加VBA层，将视觉特征作为辅助信息引入Self Attention模型中，指导解码器模型生成与图像内容更匹配的描述语义。相对位置注意力机制在Self Attention的基础上，引入可训练的相对位置参数，为输入序列添加词与词之间的相对位置关系。基于COCO2014进行实验，结果表明VBA和RPA这2种注意力机制对图像描述任务都有一定改进，且2种注意力机制相结合的解码器模型有更好的语义表述效果。关键词：图像描述；Transformer模型；Self Attention机制；相对位置

5、注意力机制；视觉增强注意力机制中图分类号：TP391文献标志码：ADOI：10.3969/j.issn.1006-2475.2023.01.002Enhanced Image Caption Based on Improved Transformer_decoderLIN Zhen-xian，QU Jia-xin，LUO Liang（School of Communication and Information Engineering，Xi an University of Posts and Telecommunications，Xi an 710121，China）Abstract：Tra

6、nsformers decoder model（Transformer_decoder）has been widely used in image caption tasks.Self Attentioncaptures fine-grained features to achieve deeper image understanding.This article makes two improvements to the Self Attention,including Vision-Boosted Attention（VBA）and Relative-Position Attention（

7、RPA）.Vision-Boosted Attention adds a VBA layer toTransformer_decoder,and introduces visual features as auxiliary information into the attention model,which can be used to guidethe decoder model to generate more matching description semantics with the image content.On the basis of Self Attention,Rela

8、tive-Position Attention introduces trainable relative position parameters to add the relative position relationship betweenwords to the input sequence.Based on COCO2014 experiments,the results show that the two attention mechanisms of VBA andRPA have improved image caption tasks to a certain extent，

9、and the decoder model combining the two attention mechanisms hasbetter semantic expression effects.Key words：image caption；Transformer model；Self Attention mechanism；relative-position attention；vision-boosted attention文章编号：1006-2475（2023）01-0007-06基于改进的Transformer_decoder的增强图像描述林椹尠，屈嘉欣，罗亮（西安邮电大学通信与信

10、息工程学院，陕西西安 710121）收稿日期：2021-11-17；修回日期：2021-12-31基金项目：国家青年基金资助项目（12102341）；陕西省教育厅项目（21JK0904）；陕西省自然科学基础研究计划项目（2020JM-580）作者简介：林椹尠（1969），女，陕西西安人，教授，硕士生导师，博士，研究方向：计算机视觉，自然语言处理等，E-mail：；通信作者：屈嘉欣（1996），女，陕西咸阳人，硕士研究生，研究方向：计算机视觉，E-mail：qujiaxin_；罗亮（1981），男，甘肃临夏人，讲师，博士，研究方向：图像处理中的数学方法，E-mail：。计算机与现代化2023年

11、第1期“水”同时出现的频率高，如果图片显示的内容是“一条鱼掉到了地面上”，很容易被解码器描述为“一条鱼在水里”。标准的Transformer模型虽然在很多任务上有着出色的表现，但其在图像描述任务中，解码器对于文本的生成只依赖于标签数据集，而一些细粒度的视觉特征对于文本语义的生成是至关重要的。文献15 提出了Bottom-Up Attention机制，是通过关注视觉的显著区域来提取图像特征。文献 16 通过对图像的不同区域及顺序进行控制，从而生成更加多样化的描述。文献 17 提出ASG抽象场景图，通过控制图像的不同细节进行语义描述，例如描述出的是什么物体、是否描述物体的属性或物体之间的关系，使得

12、生成的描述结果更贴切图像信息。Transformer中提出了绝对位置编码方法，为序列添加唯一固定的位置向量，与词向量一同作为解码器的输入，此种位置方法虽然使得输入的词向量具有时序性，但当特征向量进入Attention机制时位置信息会丢失。如果2个序列中都有“it”词，虽然“it”所在的位置和上下文语境并不同，但表征的位置编码相同，导致编码出的文本语义不准确，从而影响图像描述的整体性能。文献 18-20 针对绝对位置编码存在的位置信息丢失问题进行改进。文献18提出一种Transformer-XL神经网络结构，该网络结构由片段级的循环机制和全新的位置编码策略组成，可以解决超长距离的依赖性问题。文献

13、 19 提出了一种相对位置嵌入方法，以鼓励自注意机制中的query、key和相对位置编码之间进行更多的交互，从而提升图像描述的性能。文献 20 提出在向量空间中捕获单词距离的位置编码的3个预期特性：平移不变性、单调性和对称性，并且提出2种可学习的位置编码方法APE和RPE，其中可学习的APE在分类任务中表现更好，而可学习的RPE在跨度预测中表现更好。针对以上 2 个问题，本文提出一种基于 Transformer_decoder改进的增强型图像描述模型。此模型的整体框架如图 1 所示，采用“ResNet101”和 Transformer的编码器部分作为图像描述任务的编码器模型，添加视觉引导 Vi

14、sion-Boosted Attention（VBA）和相对位置表示 Relative-Position Attention（RPA）的Transformer_decoder模型作为解码器。针对细粒度的视觉特征在表述时被忽视的问题，提出了将视觉增强注意力机制VBA作为Transformer_decoder的辅助层，将视觉特征送入解码器中使得词与词之间的相关性受到不同区域视觉特征的影响，通过视觉信息改善Self Attention机制。针对位置信息丢失的问题，提出相对位置注意力机制RPA，此机制可以完全代替绝对位置编码的操作，将相对位置表示和Self Attention机制进行合并处理，动态地编

15、码每个词的位置信息，并能表示出词与词之间的相对位置关系。实验结果表明，具有视觉引导VBA和相对位置表示RPA相结合的解码器模型，描述的语义可以捕获到更多细粒度的视觉特征，并且能灵活地表示词与词之间的位置关系，从而提高图像描述质量。1标准的Transformer_decoder模型Transformer 的标准解码器模型由 4 个相同的Transformer_decoder 模型堆叠形成，每个 Transformer_decoder 模型由 3 个子层组成，包括多头自注意力层（Multi-Head Attention）、视觉文本注意力层（Seq-Image Attention）和前

16、馈神经网络层（Feed-Forward），每 2 层之间都会添加残差连接（ResidualConnection）和层归一化处理（Layer Normalization）。另外，注意力层使用mask方法以防止在训练给定输出词时用到未来输出词的信息。Self Attention是Multi-Head Attention的核心，对于一组文本序列x=（x1，.，xi，.，xn），通过Self Attention的各种线性映射得到输出权重值序列 z=（z1，.，zi，.，zn），以表示序列内部词与词之间的关联性。Self Attention 机制内部主要使用缩放点积的方法（Scaled Dot-Product Attention）实现序列中词的关注，其输出权重值zi可由式（1）表示。zi=j=1naij(xjWV)=j=1naijV（1）其中，aij可表示为：aij=softmax()(xiWQ)(xjWK)Tdz=softmax()Q KTdz（2）对于当前词 xi的输出权重值表示为 zi，其中 xiRdx，ziRdz，WQ、WK、WVRdxdz是参数矩阵，查询向量、键向量和值向量

展开阅读全文

基于改进的Transfor...ecoder的增强图像描述_林椹尠.pdf