1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):713-722ISSN 10019081CODEN JYIIDUhttp:/面向交通场景解析的局部和全局上下文注意力融合网络王泽宇1*,布树辉2,黄伟1,郑远攀1,吴庆岗1,张旭1(1.郑州轻工业大学 计算机与通信工程学院,郑州 450002;2.西北工业大学 航空学院,西安 710072)(通信作者电子邮箱)摘要:为解决交通场景解析中局部和全局上下文信息自适应聚合的问题,提出3模块架构的局部和全局上下文注意力融合网络(LGCAFN)。前端的特征提取模块由基于串联空洞空间金字塔
2、池化(CASPP)单元改进的ResNet-101组成,能够更加有效地提取物体的多尺度局部特征;中端的结构化学习模块由8路长短期记忆(LSTM)网络分支组成,可以更加准确地推理物体邻近8个不同方向上场景区域的空间结构化特征;后端的特征融合模块采用基于注意力机制的3阶段融合方式,能够自适应地聚合有用的上下文信息并屏蔽噪声上下文信息,且生成的多模态融合特征能够更加全面且准确地表示物体的语义信息。在Cityscapes标准和扩展数据集上的实验结果表明,相较于逆变换网络(ITN)和对象上下文表示网络(OCRN)等方法,LGCAFN实现了最优的平均交并比(mIoU),达到了84.0%和86.3%,表明LG
3、CAFN能够准确地解析交通场景,有助于实现车辆自动驾驶。关键词:交通场景解析;自适应聚合;串联空洞空间金字塔池化;长短期记忆;注意力融合中图分类号:TP391.4;TP18 文献标志码:ALocal and global context attentive fusion network for traffic scene parsingWANG Zeyu1*,BU Shuhui2,HUANG Wei1,ZHENG Yuanpan1,WU Qinggang1,ZHANG Xu1(1.College of Computer and Communication Engineering,Zhengzh
4、ou University of Light Industry,Zhengzhou Henan 450002,China;2.School of Aeronautics,Northwestern Polytechnical University,Xi an Shaanxi 710072,China)Abstract:In order to solve the local and global contextual information adaptive aggregation problem in traffic scene parsing,a Local and Global Contex
5、t Attentive Fusion Network(LGCAFN)with three-module architecture was proposed.The front-end feature extraction module consisted of the improved 101-layer Residual Network(ResNet-101)which was based on Cascaded Atrous Spatial Pyramid Pooling(CASPP)unit,and was able to extract object s multi-scale loc
6、al features more effectively.The mid-end structural learning module was composed of eight Long Short-Term Memory(LSTM)branches,and was able to infer spatial structural features of object s adjacent scene regions in eight different directions more accurately.In the back-end feature fusion module,a th
7、ree-stage fusion method based on attention mechanism was adopted to adaptively aggregate useful contextual information and shield from noisy contextual information,and the generated multi-modal fusion features were able to represent object s semantic information in a more comprehensive and accurate
8、way.Experimental results on Cityscapes standard and extended datasets demonstrate that compared to the existing state-of-the-art methods such as Inverse Transformation Network(ITN),and Object Contextual Representation Network(OCRN),LGCAFN achieves the best mean Intersection over Union(mIoU),reaching
9、 84.0%and 86.3%respectively,showing that LGCAFN can parse traffic scenes accurately and is helpful to realize autonomous driving of vehicles.Key words:traffic scene parsing;adaptive aggregation;Cascaded Atrous Spatial Pyramid Pooling(CASPP);Long Short-Term Memory(LSTM);attentive fusion0 引言 场景解析1作为计算
10、机视觉方向的基础工作,它的核心技术问题是如何准确地为图像中的每个像素分类。高精度的场景解析对于机器人任务规划2、自动驾驶3以及语义SLAM(Simultaneous Localization And Mapping)4等智能计算机视觉任务的实现至关重要。真实的场景复杂多变,特别是交通场景,图像中不仅包含多个不同类别的物体,而且物体的空间位置并不固定。因此,高精度的场景解析需要解决如下 3 个问题:1)如何有效地提取图像中物体的视觉外观信息;2)如何准确地推理物体的全局上下文信息;3)如何自适应地完成上述两类特征的融合。文献 5 首次基于卷积神经网络(Convolutional Neural N
11、etwork,CNN)提 出 面 向 场 景 解 析 的 全 卷 积 网 络(Fully Convolutional Network,FCN),并通过有效的视觉特征提取获得巨大成功。但是,CNN卷积核的感知域较小,空间结构化学习能力较弱,提取的视觉特征一般缺少全局上下文信息。文章编号:1001-9081(2023)03-0713-10DOI:10.11772/j.issn.1001-9081.2022020245收稿日期:20220302;修回日期:20220609;录用日期:20220614。基金项目:河南省科技攻关项目(222102210021);河南省高等学校重点科研项目计划支持(21A
12、520049)。作者简介:王泽宇(1989),男,河南郑州人,讲师,博士,主要研究方向:深度学习、计算机视觉;布树辉(1978),男,河南洛阳人,教授,博士,主要研究方向:深度学习、计算机视觉;黄伟(1982),男,河南郑州人,副教授,博士,主要研究方向:深度学习、计算机视觉;郑远攀(1983),男,河南郑州人,副教授,博士,主要研究方向:深度学习、计算机视觉;吴庆岗(1984),男,河南濮阳人,副教授,博士,主要研究方向:深度学习、计算机视觉;张旭(1979),女,河南南阳人,讲师,硕士,主要研究方向:深度学习、计算机视觉。第 43 卷计算机应用条件随机场(Conditional Rando
13、m Field,CRF)作为 CNN 的后端,通过优化图模型上定义的能量函数,使特征相近的相邻物体类别相同,相差较大的类别不同,从而实现场景解析的一致性和平滑性优化6。另外,由于具有门和存储结构的长短期记忆(Long Short-Term Memory,LSTM)网络可以模拟人脑的机制记忆和遗忘信息,因此将 LSTM 加入 CNN 的后端,从而通过逐像素地遍历图像视觉特征以获取物体间的空间依赖关系7。此外,PSPN(Pyramid Scene Parsing Network)8、DASPP(Densely connected Atrous Spatial Pyramid Pooling)9、D
14、eepLab(Deep Labelling)10和 多 层 多 尺 度 注 意 力 网 络(Hierarchical Multi-scale Attention Network,HMAN)11等方法通过具有多尺度感受野的空洞空间金字塔池化单元提取物体所处场景的局部和全局上下文信息,避免了单一视觉特征可能导致的分类错误。但是,上述方法在上下文信息推理过程中没有充分考虑全局场景的空间结构化特征与局部对象自身的视觉外观特征间的相关性,导致全局噪声信息融入视觉特征当中,影响分类特征的鲁棒性。为了解决此问题,基于注意力机制12的全局上下文信息推理方法13-31在场景解析研究中应用广泛。文献 13 中提出
15、了基于空间和通道注意力模块的双注意力网络(Dual Attention Network,DAN),根据物体的视觉外观特点自适应地聚合全局上下文信息。门控金字塔网络(Gated Pyramid Network,GPN)19通过门控金字塔模块过滤全局噪声信息,保证了融合生成特征的质量。上下文先验网络(Context Prior Network,CPN)16内嵌基于亲和损失的上下文先验层,根据亲和损失监督学习的上下文先验知识有选择性地获取类别内和类别间的上下文依赖关系,从而提升特征表示的鲁棒性。语义约束的注意力细化网络(Semantic Constrained Attention Refinemen
16、t Network,SCARN)18通过语义约束的注意力机制有效地学习类别内的上下文依赖关系,有效地增强了整个物体特征信息的一致性。另外,对象上下文表示网络(Object Contextual Representation Network,OCRN)14基于对象上下文表示实现像素上下文的有效聚合。该方法首先初步分割场景中的物体并聚合得到对象上下文表示;然后计算像素自身特征与场景中每个对象上下文表示的相关性;最后根据相关联程度自适应地聚合对象上下文信息,从而有效地增强每个像素的特征表示,并取得较优的场景解析准确率。但是,上述方法未充分考虑全局场景的空间结构化特性,如:骑手和行人的上方一般是天空,而骑手和行人的下方分别是自行车和道路,如何有效地聚合骑手和行人下方的上下文信息是区分骑手和行人的关键。而现有方法直接自适应聚合所有像素的上下文信息,从而由于依赖关系过度复杂而无法有效聚合有用上下文信息并屏蔽噪声上下文信息,进而影响聚合后特征表示的质量,甚至导致分类错误。本文面向复杂交通场景提出局部和全局上下文注意力融合网络(Local and Global Context Attentive Fu