基于多模态特征融合的图像描述算法研究

资源描述

1、工业控制计算机2023年第36卷第1期基于多模态特征融合的图像描述算法研究杨晨露1，2万旺根1，2张振3孙学涛2王旭智1，2（1上海大学通信与信息工程学院，上海200444；2上海大学智慧城市研究院，上海200444；3上海交通大学医学院附属仁济医院宝山分院，上海200444）Research on Image Description Algorithm Based on Multimodal Feature Fusion摘要：针对图像描述任务，传统算法更加关注图像中的视觉物体，而忽略了文本信息对其描述也起到了不可或缺的作用。为增强对图像中文本信息的提取，提出了一种基于多模态特征融合的图像描述

2、算法。在视觉特征提取的基础上，增加文本识别和检测算法，并使用多模态Transformer来融合两种模态。在解码阶段，采用中心图作为指导模块，使用动态指针网络实现迭代解码，使模型生成更加丰富的自然描述语句。最后在Textcaps数据集上的实验结果表明，该方法可以有效提高文本区域中OCR令牌的提取精度。关键词：图像描述；自然语言处理；文本检测；TransformerAbstract:For the image description task,traditional algorithms focus more on the visual objects in the image and ig-no

3、re the fact that textual information also plays an indispensable role in its description.To enhance the extraction of text in-formation in images,this paper proposes an image description algorithm based on multimodal feature fusion.Based on vi-sual feature extraction,text recognition and detection a

4、lgorithms are added,and a multimodal Transformer is used to fusethe two modalities.In the decoding stage,a central graph is used as a guiding module and a dynamic pointer network isused to achieve iterative decoding so that the model generates richer natural descriptive statements.Finally,the experi

5、men-tal results on Textcaps dataset show that the proposed method can effectively improve the extraction accuracy of OCR to-kens in text regions.Keywords:image description,natural language processing,text detection,Transformer近年来，图像描述任务越来越成熟。很多视觉场景不仅包含视觉对象，还包含携带关键信息的文本，但现有方法中很少关注到文本信息。随着深度学习方法的发展，大多

6、数图像描述算法，采用基于CNN-RNN的编解码框架1。但这种编解码模型在处理固定长度向量存在局限性，为此，文献2提出自上而下与自下而上相结合的注意力模型（BUTD），该方法使用Faster-RCNN来代替CNN部分，过滤无用的图像特征来提高检测效率；2020年文献3提出多模态多复制网络（M4C），该方法基于具有迭代答案预测的多模态Transformer架构，将问题、视觉对象、文本信息进行特征提取，作为输入的特征列表；同年，文献4在此基础上将图像中的文本信息应用到图像描述任务中；文献5在此模型基础上进一步提出Anchor-Captioner（Anchor）模型，通过构造中心图的思想，使一幅图像对

7、应生成多条描述语句，从而丰富描述内容。1研究方法本文基于Anchor5网络结构，提出一种基于多模态特征融合的图像描述模型，如图1所示。在视觉特征提取的基础上，增加文本识别和检测算法，并采用多模态Transformer来融合两种模态，将其嵌入到共同的语义空间。在编码阶段，通过构建中心图来模拟文本之间的复杂关系；在解码阶段，生成描述模块选择得分最高的中心图（Center Graph）作为生成模块的指导，使用动态指针网络实现迭代解码，最终使模型生成描述语句。1.1特征提取1.1.1视觉特征提取对于输入的图像，采用预训练的Faster-RCNN6作为检测器，来提取每个对象的外观特征vmfr，并对每个对

8、象的空间信息进行推理，得到其四维边界框坐标：vmb=xmin/W，ymin/H，xmax/W，ymax/H（1）vmobj=LN（W1vmfr）+LN（W2vmb）（2）其中，W1和W2是学习参数，LN表示归一化。图1基于多模态特征融合的图像描述模型结构示意图1.1.2文本特征提取此前，M4C Captioner4使用Rosetta7作为OCR识别系统，但其不足以正确识别文本。为提高OCR令牌的识别能力，本文在文本检测部分，采用CRAFT8算法，通过探索字符级别的亲和力来有效地检测文本区域；ABCNet9算法通过使用自适应Bezier曲线拟合任意形状文本，并将两种模型的检测到的文本区域组合在一

9、起输入文本识别部分。文本识别部分使用四阶段STR10框架的深度文本识别基准，使新的OCR系统中提取的OCR令牌与原始令牌组合在一起，输入到中心图构建模块。为丰富OCR令牌特征，我们使用FastText11、Faster R-CNN6、PHOC12分别提取子单词特征tft，外观特征tfr，字符级特征tp。位置特征tib表示为：tib=xmin/W，ymin/H，xmax/W，ymax/H（3）tiocr=LN（W3tift）+LN（W4tip）+LN（W5tib）（4）其中，W3、W4和W5是学习参数，LN表示归一化。1.2多模态特征融合基于以上的特征提取，可获得视觉嵌入V=v1，vNT和87基

10、于多模态特征融合的图像描述算法研究OCR令牌嵌入T=t1，tMT，将Transformer应用于这两种输入模态。同时，前一步的解码输出Pt-1dec也被送入Transformer中训练。V，T，Zt-1dec=mmt（V，T，Pt-1dec）（5）其中mmt表示多模态Transformers。1.3中心图指导模块基于多模态的嵌入，本文提出中心图指导模块，根据识别到的OCR令牌出现在参考语句中的次数进行计数，随后通过归一化操作，得到生成中心图的监督信号。并对令牌之间的复杂关系进行建模，以每个中心点构建中心图。最终，将得分最高的中心图输入生成描述模块中，作为生成描述语句的指导。基于文本特征T，应用

11、线性层作为中心点预测器，预测每个OCR令牌的得分。Scenter=softmax（T）（6）在训练过程中，采用得分最高的OCR令牌作为中心点，表示为：Tcenter=Ti，i=argmax（Scenter）（7）使用RNN模块作为初始隐藏状态来模拟中心点和不同令牌之间的潜在依赖关系，以中心点Tcenter构建中心图，表示为：Tgraph=RNN（T，Tcenter）（8）1.4生成描述模块生成描述模块将多模态Transformer输出Zt-1dec作为输入，计算OCR令牌和词汇表单词的得分。线性层和指针网络分别生成M维OCR分数ytocr和V维词汇表分数ytvoc，该过程表示为：ytocr=P

12、N（Zt-1dec）（9）ytvoc=WZt-1dec+b（10）其中，PN为动态指针网络，W、b是学习参数。2实验结果与分析实验环境配置：Ubuntu16.04、GTX 1080Ti、CUDA 10.1、Python 3.7、PyTorch 1.7.1、TorchVision0.5.0。在训练过程中，设置训练最大迭代次数为12 000，batch size为32，并采用学习率为0.001的Adam优化器。2.1实验数据集及评价指标本文的实验在Textcaps数据集上进行。该数据集依赖于Open images v3数据集的图像，包含28 408张图像上的142 040个标题，这些标题已通过Ro

13、setta OCR系统7和人类注释器验证包含文本。使用五个标准评估指标来评估准确性，分别为BLEU4(B4)、METEOR(M)、ROUGE-L(R)、SPICE(S)和CIDEr(C)。2.2结果分析本文实验在Textcaps数据集下进行评估与测试，实验结果如表1表3所示。表2Textcaps数据集下的测试结果表3Textcaps数据集下生成图像描述语句部分实例首先将本文方法与两种先进的图像描述方法进行比较，即BUTD2和AoANet13。对于Textcap任务，我们与当前先进的方法M4C Captioner（M4C-C）4和Anchor5方法进行比较。由表1和表2可以看出，在评估和测试集上

14、，我们的模型在B4、R和C上得分最高。与基准模型Anchor相比，针对B4、S和C指标，在评估集中分别提高了0.33%、0.29%、2.94%；在测试集中分别提高了0.14%、0.25%、2.94%，可以证明改进后模型的有效性。由表3生成描述语句的结果可以看出，本文算法在对于图像中的文字识别上的准确度更高，模型生成的描述语句也更加详细丰富。3结束语为了提高对图像中OCR令牌的识别精度，本文所提的基于多模态特征融合的图像描述算法，在Textcaps数据集上得到了有效的验证。针对图像中文本信息，今后可以进一步地考虑OCR令牌之间的空间关系，利用几何关系的角度来增强OCR令牌之间的连接，从而提高图像

15、描述模型生成结果的准确度是具有研究意义的。参考文献1VINYALS O,TOSHEV A,et al.Show and tell:a neural imagecaptioning generator C/Proceed-ings of the IEEE confer-enceoncomputervisionandpatternrecognition,2015:3156-31642Anderson P,He X,Buehler C,et al.Bottom-up and top-down attention for image captioning and visual question an-

16、sweringC/Proceedings of the IEEE conference on computervision and pattern recognition,2018:6077-60863Hu R,Singh A,Darrell T,et al.Iterative answer predictionwith pointer-augmented multimodal transformers for textvqaC/Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition,2020:9992-100024Sidorov O,Hu R,Rohrbach M,et al.Textcaps:a dataset forimage captioning with reading compre-hendsionC/EuropeanConference on Computer Vision,2020:742-7585Xu G,Niu S,Tan M,et al.Towards acc

展开阅读全文

基于多模态特征融合的图像描述算法研究_杨晨露.pdf