1、第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于 Transformer的多方面特征编码图像描述生成算法衡红军,范昱辰,王家亮(中国民航大学 计算机科学与技术学院,天津 300300)摘要:由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上述不足,提出用于编码图像内目标特征的目标 Transformer编码器,以及用于编码图像内关系特征的转换窗口Transformer编码器,从不同角度
2、对图像内不同方面的信息进行联合编码。通过拼接方法将目标 Transformer编码的目标特征与转换窗口 Transformer编码的关系特征相融合,达到图像内部关系特征和局部目标特征融合的目的,最终使用 Transformer解码器将融合后的编码特征解码生成对应的图像描述。在 MS-COCO数据集上进行实验,结果表明,所构建模型性能明显优于基线模型,BLEU-4、METEOR、ROUGE-L、CIDEr指标分别达到38.6%、28.7%、58.2%和 127.4%,优于传统图像描述网络模型,能够生成更详细准确的图像描述。关键词:图像描述;转换窗口;多头注意力机制;多模态任务;Transform
3、er编码器开放科学(资源服务)标志码(OSID):本文源代码链接:https:/ Transformer的多方面特征编码图像描述生成算法 J.计算机工程,2023,49(2):199-205.英文引用格式:HENG H J,FAN Y C,WANG J L.Multifaceted feature coding image caption generation algorithm based on Transformer J.Computer Engineering,2023,49(2):199-205.Multifaceted Feature Coding Image Caption Gen
4、eration Algorithm Based on TransformerHENG Hongjun,FAN Yuchen,WANG Jialiang(School of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China)【Abstract】Object features extracted by object detection algorithms play an increasingly critical role in the generation of ima
5、ge captions.However,only using the features of object detection as the input of an image caption task can lead to the loss of other information except the key object information and generation of a caption that lacks an accurate expression of its relationship with the image object.To solve these dis
6、advantages,an object Transformer encoder for encoding object features in an image and a shift window Transformer for encoding relational features in an image are proposed to make joint efforts to encode different aspects of information in an image.The object features of the object Transformer encode
7、r are fused with the relational features of the shift window Transformer by splicing method,to achieve the purpose of fusion of the internal relational and local object features.Finally,a Transformer decoder is utilized to decode the fused coding features and generate the corresponding image caption
8、.Extensive experiments on the Common Objects in COntext(MS-COCO)dataset and comparison with the current classical model algorithm show that the performance of the proposed model is significantly better than that of the baseline model.The experimental results indicate that the scores of BiLingual Eva
9、luation Understudy 4-gram(BLEU-4),Metric for Evaluation of Translation with Explicit ORdering(METEOR),Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence(ROUGE-L),and Consensus-based Image Description Evaluation(CIDEr)metrics can reach 38.6%,28.7%,58.2%and 127.4%respectively
10、,better than those of the traditional image caption algorithm.Moreover,it can generate more detailed and accurate captions.【Key words】image caption;shift window;multi-headed attention mechanism;multimodal task;Transformer encoderDOI:10.19678/j.issn.1000-3428.0064450基金项目:国家自然科学基金(U1333109)。作者简介:衡红军(1
11、968),男,副教授、博士,主研方向为图像描述;范昱辰(通信作者),硕士研究生;王家亮,讲师、博士。收稿日期:2022-04-12 修回日期:2022-05-20 Email:图形图像处理文章编号:1000-3428(2023)02-0199-07 文献标志码:A 中图分类号:TP391.412023年 2月 15日Computer Engineering 计算机工程0概述 图像描述是将图像的视觉内容转换为符合人类描述习惯的自然语言语句的任务,是一项结合计算机视觉和自然语言处理的多模态任务。图像描述的挑战不仅存在于识别图像中目标与目标之间的关系,而且还存在于不同模态下实现相同语义的转换以及生成
12、人类描述习惯的句子。现 有 的 图 像 描 述 生 成 方 法 有 基 于 模 板 的 方法1-2、基于检索的方法3和基于编码-解码的方法。目前主流图像描述方法倾向于采用基于神经网络的编码器-解码器结构4-7。早期图像描述的编码器-解码器结构使用卷积神经网络(Convolutional Neural Network,CNN)作为编码器对输入图像进行编码,使用循环神经网络(Recurrent Neural Network,RNN)作为解码器对编码器产生的结果进行解码。这些方法模型都由一个图像 I作为模型的输入,每个时间戳产生的单词的概率 P(S|I)作为模型的输出,最终生成的句子S=W1,W2,
13、Wn为图像描述语句。现有的图像描述模型多采用原始图像或对原始图像进行目标检测得到的目标特征向量作为模型输入,这 2 种方案均致力于更加准确地描述图像内的关键目标,但却造成了对图像内部其余信息(图像背景信息、目标之间的关系信息等)的获取缺失,导致生成的图像描述存在误差和局限性。为了在准确描述图像内部目标的同时对图像内部目标之间的关系进行合理表达,本文提出一种结合目标 Transformer和转换窗口 Transformer的联合编码模型。对于给定图像,采用本文提出的目标 Transformer编 码 器 编 码 目 标 视 觉 特 征,同 时 使 用 转 换 窗 口Transformer编码器编
14、码图像内部关系特征。本文采用拼接方法将视觉特征与编码后的图像内部关系特征进行融合,并对融合后的编码向量使用Transformer解码器解码,最终生成对应图像内容的描述。1相关工作 2014 年,谷 歌 提 出 了 Neural Image Caption Generator5,这是一个使用 CNN作为编码器、RNN作为解码器的神经网络模型,展现出了良好的性能。随着研究的深入,研究者发现人类观察图像中的内容时,会从复杂的图像内容中找出关键点,并将注意力集中于此,因此,研究者基于人类注意力机制启发,设计了加入视觉注意力机制的神经网络模型8用于图像描述。注意力的加入使模型可以选择性地关注图像的特定区
15、域,而不是无偏好地关注整个图像。JIASEN等9注意到在生成描述过程中并非每个单词均来源于图像,也有可能来源于已生成的描述本身(如一些介词、连词的生成),因此设计了自适应注意力(adaptive attention),让模型自行选择应关注于图像还是描述语句。随着目标检测精度的提升,ANDERSON等10提出了一种目标检测引导的注意力机制,它被证明可以提高图像描述的准确率。综上所述,图像描述任务的研究由刚开始对图像的无偏关注,到加入注意力机制的辅助,再到目标检测方法的加入,研究者一直致力于对图像内目标内容的精确识别。但对于图像描述任务,不仅仅需要准确描述目标,更需要对目标之间的互动关系进行准确表
16、达,如果目标之间的互动关系表达错误,则会造成描述与图像内容严重不符。2017年,谷歌提出了 Transformer模型11,用于解决 Seq2Seq(Sequence to Sequence)问题。Transformer模型也遵循编码器-解码器架构,但模型中编码器和解码器没有使用卷积、池化等网络架构,而是完全依靠自注意机制的并行化架构来捕捉序列依赖。Transformer在自然语言处理(Neural Language Processing,NLP)任务中取得了优异的成绩,但在计算机视觉领域的表现却不尽如人意。研究者一度认为Transformer模型并不适用于计算机视觉任务,直至ViT(Vision Transformer)12模型的出现,才使研究者重新聚焦于Transformer相关模型。经过长期实践证明,Transformer在计算机视觉领域也能取得比传统CNN模型更强的性能。2021年,微软亚洲研究院提出了Swin Transformer13,其结果比ViT 更好,并明显优于 CNN 模型,这进一步提升了Transformer在计算机视觉领域的应用。通过实验研究发现,Swin Tr