锚和通道注意力相结合的车道检测算法

资源描述

1、现代计算机Modern Computer第 28 卷第 24 期2022年12月25日锚和通道注意力相结合的车道检测算法韩尚君，余艳梅，陶青川（四川大学电子信息学院，成都610065）摘要：车道检测是自动驾驶不可缺少的一部分，但目前车道检测算法在同时保证高准确率和快检测速度方面还有待进一步提高。在LaneATT上改进得到了新的车道检测算法LaneEcaATT。通过引入了通道注意力机制ECAnet对特征图进行处理得到局部特征，然后与全局特征相结合进行车道检测。在两个公开数据集上的实验结果表明，改进后的算法LaneEcaATT在Tusimple数据集上优于对比算法，在CULane数据集上采用Re

2、snet18作为主干网时也优于对比算法，较好地兼顾了高准确率和快检测速度。关键词：锚；通道注意力机制；车道检测文章编号:1007-1423（2022）24-0036-06DOI:10.3969/j.issn.1007-1423.2022.24.0060引言随着传统汽车行业与人工智能技术的结合，各种计算机视觉技术已被证明是保证自动驾驶安全可靠的1不可或缺的一部分。为保证自动驾驶的实用性和有效性，车道检测是至关重要的。随着卷积神经网络（convolutional neural networks，CNN）2的发展，深度学习的快速发展和设备能力的改善（如计算力、内存容量、能耗、图像传感器分辨率和光学器

3、件等）提升了视觉应用的性能和成本效益，并进一步加快了此类应用的扩展。与传统 CV 技术相比，深度学习可以帮助 CV 工程师在图像分类、语义分割、目标检测和同步定位与地图构建等任务上获得更高的准确率，故目前自动驾驶的研究热点已转移到深度学习方法上来3-6。车道检测对于自动驾驶而言是极为重要的一步，首先它可以使车辆行驶在正确的道路上，对于后续的导航和路径规划也是至关重要的，同时它也具有挑战性，因为交通、驾驶环境、障碍物、天气条件等各种内外部复杂条件都会产生巨大影响。对于车道检测的研究主要有两种方法进行解决传统方法和深度学习方法。传统方法主要是通过手工提取特征，然后将其与滤波器进行结合，得到分割的车

4、道线，最后过滤部分错误车道得到最终的检测结果。目前已经有研究使用深度网络来取代手工提取特征来进行车道检测：Huval等7首次将深度学习方法应用于CNN的车道检测；Pan等8通过提出一种相邻像素之间的消息传递机制SCNN显著提高了深度分割方法对车道检测的性能；Li等9提出了一种端到端的高效深度学习系统 LineCNN（LCNN），在实时环境中试验显示，优于当时最先进的方法，显示出更高的效率和效率；Tabelini等10提出了一种基于锚的单阶段车道检测模型 LaneATT，其架构允许使用轻量级主干CNN，同时保持高精度。本文提出的模型LaneEcaATT是在基于锚的单级车道检测模型LaneATT的

5、基础上进行改进，添加了通道注意力机制ECAnet11，将ECAnet和轻量级主干网 Resnet12相结合，在保持 FPS 和MACs指标基本不变的情况下，提高了车道检测的准确率。本文在两个公开数据集 Tusimple13和 CULane8上评估了本文的方法，同时与 LaneATT的结果进行了比较。1相关技术1 1.1 1LaneATTLaneATT算法算法1010LaneATT 是一种基于锚的单阶段模型，用于车道检测。LaneATT 算法主要由主干网Resnet、基于锚的特征池化层、注意力机制和结 36韩尚君等：锚和通道注意力相结合的车道检测算法第24期果预测层组成。1

6、 1.1 1.1 1LaneATTLaneATT的主干网的主干网卷积神经网络（CNN2）是一种模拟生物的神经结构的数学模型，通常用于目标检测、图像分割、车道检测等方法的特征提取。理论上CNN网络随着深度越深，就能获得更加丰富的特征信息，但是在实际实验中，网络的深度并不能无限制地增加，网络深度达到瓶颈之后，效果反而更差，准确率也随之降低。通过添加如图1所示的残差块，将多个相似的Residual Block进行串联构成Resnet12。根据不同的需求，残差块有两种形式，一种是图1左边的形式basic block，它由两层3 3的卷积组成，输入输出的维度相同；另一种是图1右边的形式 bottlene

7、ck block，通过使用1 1卷积层实现了先降维再升维的过程，此方法可以降低计算复杂度。Resnet通过引入残差块在一定程度上解决了梯度消失和梯度爆炸的问题，从而能够训练更深的网络。相比于VGG14 网络，Resnet网络不仅更深而且模型的尺寸和参数量更小，LaneEcaATT使用Resnet18、Resnet34、Resnet101作为主干网来提取图片特征。图 1bottleneck block121 1.1 1.2 2基于锚的特征池化层基于锚的特征池化层LaneATT 的池化操作借鉴了 Fast RCNN15的感兴趣区域投影（ROI投影），区别在于检测的时候使用的是线。相比于 LineC

8、NN9只利用了特征图的边界，LaneATT 在一定程度上可以使用所有的特征图，故LaneATT可以使用更小的主干网和更小的接受域。一个锚就定义了一个候选点集F，将锚所构成虚线上的特征进行串联，对于超出图片边界的点做补零操作以保证串联后的维度恒定，vloci RCF HF10。对于每一个yj=0,1,2HF-1，xj10 的计算公式如式（1）所示：xj=1tan()yj-yoback+xoback（1）其中(xo,yo)是锚线的原点，是锚线的斜率，back是主干网的全局步长。1 1.1 1.3 3LaneATTLaneATT的注意力机制的注意力机制对于大多数轻量级模型来说，获取的是局部特征向量。

9、但是在某些复杂的场景下，例如有其他物体遮挡视野或目标部分消失的情况下，局部特征可能无法预测车道是否存在以及其位置。为解决这一问题LaneATT提出了一种新的注意力机制Latt10，它利用局部特征来生成附加特征，将其和局部特征结合得到全局特征。对于每一个局部特征向量vloci10，当i j的时候，输出一个权重i,j10，如公式（2）所示：i,j=softmax()Latt()vlocij,i j0,i=jsoftmax()Latt()vlocij-1,i j（2）之后便可得到全局特征向量vgloi10，如公式（3）所示：vgloi=ji,jvloci（3）1 1.2 2ECAnetECAnet模

10、型模型1111通道注意力机制可以提升CNN网络的性能，但现有的算法为获得更加优秀的效果，大都选择复杂的注意力模块而忽略了算法应用于轻量级模块和实时运算的情况11。SENet16的降维会给通道注意力机制带来副作用，并且没有必要获取通道之间的依赖关系。ECAnet将原始的 SENet与它的三个都没有降维的变体（SEVar1，SEVar2 和SEVar3）进行了对比实验：SEVar1虽然没有参数但是性能仍然优于 SENet，说明在提高深度 CNN 的性能上面通道注意力是有用的；SEVar2在每个通道独立地学习权重且参数较少，结果也是优于SENet，说明通道及其权重需要直接对应，而且避免降维比非线性通

11、道依赖更加重要；SEVar3 比在 SE块中少使用一个FC层进行降维，结果显示性能 37现代计算机2022年更好11。综合ECAnet的实验可以表明，避免降维对于通道注意力机制的性能有很大的提升，故ECAnet在SENet的基础上进行改进，ECAnet通过一维卷积来实现了一种不需要降维的局部交叉通道交互策略。ECAnet的模型结构如图 2所示。图 2ECAnet结构111 1.3 3锚和通道注意力相结合的车道检测算法锚和通道注意力相结合的车道检测算法LaneEcaATTLaneEcaATT本文提出的算法模型LaneEcaATT（如图3所示）在 LaneATT 的基础上添加了 ECAnet（如图

12、 3圆角矩形所示），以提取局部特征。模型的输入图像经过主干网Resnet和ECAnet提取特征，利用基于锚的特征池化层提取感兴趣的锚线，进而生成局部特征，局部特征通过注意力机制生成全局特征，将局部特征和全局特征进行结合，最后将组合特征传递给全连接层得到最终预测的车道。图 3LaneEcaATT的模型图2实验2 2.1 1实验参数设置实验参数设置本文的方法在两个最常使用的车道检测数据集（Tusimple13和 CULane8）上进行测试，两个数据集的具体信息如表1所示，所有的实验都使用了数据集的创建者默认的参数。表 1数据集信息数据集TusimpleCULane训练集326888880验证集35

13、89675测试集278234680最大车道数目54实验中的所有输入图像都被调整为HIWI=360 640像素，对于两个数据集都使用 Adam优化器，Tusimple训练100个epochs，CULane训练15个epochs，通过随机的平移、旋转、缩放和水平翻转来进行数据增强。本文实验部分的效率指标分为每秒帧数（FPS）和乘积累加运算（MACs）。2 2.2 2TusimpleTusimple数据集上的实验数据集上的实验2 2.2 2.1 1TusimpleTusimple数据集数据集Tusimple13是一个只包含高速公路场景的车道检测数据集，通常相对于街景来说，这个场景作为车道检测会更容易

14、。但是它仍然是在车道检测工作中使用最广泛的数据集之一。所有的图像都有1280 720像素，最多有5个车道。2 2.2 2.2 2TusimpleTusimple数据集上的评价指标数据集上的评价指标在 Tusimple 数据集上三个评价指标分别是错误发现率（FDR）、假阴性率（FNR）和准确性（Accuracy）。准确性Accuracy如公式（4）所示：Accuracy=clipCclipclipSclip（4）其中，Cclip是切片中正确预测车道的点数，Sclip是图片中总的点数，预测点必须是在真实图像点的20个像素内才能被认为是正确的点。2 2.2 2.3 3TusimpleTusimple

15、数据集上的实验结果数据集上的实验结果表2是本文模型在Tusimple数据集上得到的检测结果。可以看出，本文的方法LaneEcaATT在MACs和Params上基本上没有任何增加，FPS也基本持平。在准确率上本文均优于LaneATT，甚至在使用Resnet18作为主干网的情况下，比LaneATT 使用 Resnet34 的准确率还要高，但MACs减少了50%，Params减少了45%，FPS提升了 44%。虽然在 Resnet18 和 Resnet34 上 FDR 38韩尚君等：锚和通道注意力相结合的车道检测算法第24期比较高，但是在FNR方面则是都优于LaneATT。图 4 是 LaneEca

16、ATT 和 LaneATT 在 Tusimple 上的检测效果对比，LaneEcaATT的检测效果要略优于LaneATT的检测效果。结合表2和图4，在Tusimple数据集上，本文算法的准确率都得到了提升，尤其是在Resnet18 上达到了 LaneATT 在 Resnet34 上的准确率。表 2Tusimple数据集结果算法模型LaneATT（resnet18）LaneATT（resnet34）LaneATT（resnet101）LaneEcaATT（resnet18）LaneEcaATT（resnet34）LaneEcaATT（resnet101）MACs/G9.33518.00537.5499.33518.00537.550Params/M12.01922.12743.44112.01922.12743.441FPS1901366619513565Accuracy/%95.5795.6395.8495.6495.795.87FDR/%3.563.525.095.745.14.88FNR/%3.012.922.642.642.492.52图 4Tusimple数据集实验结果（左中右

展开阅读全文

锚和通道注意力相结合的车道检测算法_韩尚君.pdf