1、 基于全局多尺度特征融合的伪装目标检测网络童旭巍 张光建摘 要 在伪装目标检测中,由于伪装目标的外观与背景相似度极高,很难精确分割伪装目标 针对上下文感知跨级融合网络中,高层次语义信息在向浅层网络融合传递时因被稀释及丢失而导致精度降低的问题,文中提出基于全局多尺度特征融合的伪装目标检测网络 先设计全局增强融合模块,捕捉不同尺度下的上下文信息,再通过不同的融合增强分支,将高层次语义信息输送至浅层网络中,减少多尺度融合过程中特征的丢失 在高层网络中设计定位捕获机制,对伪装目标进行位置信息提取与细化 在浅层网络中对较高分辨率图像进行特征提取与融合,强化高分辨率特征细节信息 在 个基准数据集上的实验表
2、明文中网络性能较优关键词 伪装目标检测,高层次语义信息,特征融合,图像分割引用格式 童旭巍,张光建 基于全局多尺度特征融合的伪装目标检测网络 模式识别与人工智能,():中图法分类号 ,o o o o,o o o o o o oo o,oo o o o o o,o o o,oo o()o o o o()oo,o o o()o o oo ,oo o o oo o o o o oo o o oo o o o,o o o oo o oo o oo o o o o o o,oo,o,o ,o o o o o o oo ,():收稿日期:;录用日期:,;,本文责任编委 张军平o o o 伪装目标是指那些与
3、背景高度相似,或被背景 重庆理工大学 两江人工智能学院 重庆 oo o ,o o oo,o 第 卷 第 期模式识别与人工智能o o 年 月 oo 遮挡的对象 它们通常会与环境巧妙融合,让自身的颜色、姿态等与环境高度相似,从而伪装自身,难以被发现 例如,生活在沙漠中的蜥蜴、冰层上的北极熊及穿迷彩服的士兵等,都被称为伪装目标伪装目标检测(o o,)旨在检测视觉场景中的伪装目标,并与背景分割 比显著目标检测更具有挑战性近年来,渐渐引起研究者的兴趣,除了本身具有的科学研究价值以外,还可应用于计算机视觉(如搜救工作、珍稀动物的发现),医学图像分割(如息肉分割、肺部感染分割、视网膜图像分割),农业检测(灾
4、害检测、蝗虫检测),艺术处理(逼真混合、娱乐艺术)等领域 但是,由于伪装目标与背景之间的高度相似性,想要消除视觉上的歧义,突出伪装目标与背景之间的关系,并彻底分割是一件具有挑战性的事情早期的 工作主要还是依赖于手工制作的纹理、凸度、颜色、边界等底层特征以区分前景和背景,受到很多限制,在伪装目标与环境融合较深、前景与背景高度相似的复杂场景下,基于手工提取特征的方法往往会失效近年来,随着深度学习的蓬勃发展,研究者们提出许多有效的 方法,并取得良好效果 等观察到翻转的图像能帮助检测伪装目标,提出o,将原始图像和翻转后的图像作为输入数据 等提出(oo),先预测粗略区域,再细化边界 等提出联合(o)和
5、的对抗性网络,利用矛盾信息增强 和 等提出(o o),首先学习骨干输出的条件分布,获得初始估计和相关的不确定性,然后通过注意力机制对这些不确定性区域进行推理,产生最终预测 等提出(oo),设计(o)和(o)两个模块,模拟视觉感知行为,实现对伪装区域与背景之间的边缘识别 等提出分心挖掘策略,并用此策略构建(oo o o)等提出(o o),模仿猎人狩猎的过程,使用搜索模块与识别模块定位和识别伪装目标,并收集第 个用于伪装目标检测的大规模数据集 数据集包含真实自然环境下的各种伪装属性 等提出(o o o o),设计两个跨级融合模块,融合不同尺度的特征 同样地,o 等提 出 (oo o),有效学习多尺
6、度特征的视觉上下文线索,利用不同扩张率的尺度感知的注意力融合,捕获有效信息 等将时间序列进行多尺度提取,逐步补充时间上下文以获得查询活动的位置,展现多尺度融合网络的有效性尽管上述方法在 上取得良好效果,但大多数方法在面对一些具有挑战性的场景时,检测性能会下降 由于在多尺度融合网络中,高层的特征图提取网络的层数过深,以及卷积层和池化层的使用,会让特征图损失部分高层次语义信息,导致检测结果不理想 高层次语义信息在向浅层网络传递,自顶向下进行多尺度融合时,较深层次获取的位置信息也会被逐渐稀释,浅层网络获取的高层次语义信息不足,从而导致网络的检测能力下降 并且伪装目标特征信息中存在大量噪声,如何精细化
7、特征信息也成为一个问题 因此,研究者们在 上还有较大的探索与改进空间为此,本文以 等的工作为基础,设计全局增强融合模块与定位与捕获机制,提出基于全局多尺度特征融合的伪装目标检测网络(o o o o,)首先使用多层次骨干网络提取多尺度特征,将最高层次特征通过全局增强融合模块(o o o,),用于捕捉不同尺度的高层次全局语义信息,再将捕捉的高层次语义信息送至浅层网络,与注意诱导跨层融合模块(o o o o,)输出的特征进行融合,融合后的特征通过双分支全局上下文模块(o o o,)挖掘丰富的全局上下文信息,细化伪装目标 并且,本文在高层网络中利用定位模块(oo o,)与聚焦模块(o o,)设计定位与
8、捕获机制,对伪装目标进行定位与细化,为后续的融合提供有效的先验信息 在浅层网络中对较高分辨率图像进行特征提取与融合,提取高分辨率特征细节,减小细节的退化而导致的图像模糊问题 在 个广泛使用的基准数据集上的实验证实 的性能较优基于全局多尺度特征融合的伪装目标检测网络 网络总体架构本文提出基于全局多尺度特征融合的伪装目标第 期 童旭巍等:基于全局多尺度特征融合的伪装目标检测网络检测网络(),网络整体架构图如图 所示首先采用 在 个不同尺度层提取特征,特征图分别表示为 ,表示不同尺度层的层数,表示高度,表示宽度,表示通道数,个尺度层的通道数分别为,将最高层次提取的特征 送入金字塔池化模块(oo o,
9、),提取不同尺度上下文信息,并将通道缩减为 将特征 依 次 输 入 模 块(o),通过扩大感受野,获取特定层中更丰富的特征,通道缩减为 经过 模块后的特征再经过定位模块()与注意诱导跨层融合模块()自顶向下进行特征融合,并且在通过双分支全局上下文模块()之前,将 模块捕获的高层次语义信息通过 个不同的特征增强分支与 输出的特征进行融合,在进行 次迭代后,输出预测图、具体参数设置与文献 保持一致全局增强模块输入图像输出预测图相加DGCMACFMRFBF1F2F3F4F5RFBACFM真实标签监督FM定位与捕获机制RFBRFBACFMPM相加DGCM真实标签监督PPMDGCM相加图 架构图 o 全
10、局增强融合模块 提供一个自底向上提取多层次不同尺度特征的主干网络 然而,在特征自顶向下进行传递时,高层次语义信息会逐步稀释,特别是在深层次的网络中,多层次卷积的使用到最终图像的恢复,高层次语义信息会越来越少,难以捕捉图像的全局信息 而高层次语义信息往往包含潜在的伪装目标的位置信息 因此,本文设计全局增强融合模块(),用于增强浅层网络中的高层次语义信息,减少在多尺度特征融合时特征信息的损失具体地,模块主要包括 部分:模块,特征增强分支部分,相加融合部分 模块可进行不同尺度不同接收场的特征提取,增强伪装目标具有的全局上下文语义信息 模块结构如图 所示,采用的 参数设置与(o)保持一致自适应池化1
11、1卷积+1 1卷积+1 1卷积+1 1卷积+上采样FP图 金字塔池化模块结构图 模块包含 个主分支和 个自适应池化分支,用于处理 个尺度的特征 ,主分支 为恒等映射,个副分支 进行自适应池化,尺寸分别为 ,输出的特征图 都进行 的卷积以减少通道数 然后通过双线性差值进行上采样 此过程可描述模式识别与人工智能()第 卷如下(),(g(),(g(),(g(),(g(),其中,()为双线性差值上采样操作,()为 的卷积操作,g()为尺度为 的自适应池化操作 最后将 进行拼接,输出通道为,得到最后的特征图:(,),其中()为通道间的级联操作与 中的 模块不同,本文的 模块放置在最高层特征输出 上,作为
12、主干网络中额外的特征提取模块,扩大最高层次的感受野,捕捉不同尺度丰富的全局上下文信息特征增强分支部分将 模块捕获的高层次语义信息通过不同上采样尺度的特征增强分支进行组合连接,并直接通过图中的个分支将高层次语义信息依次送入浅层网络中,与浅层网络中特征图进行相加融合,得到特征图:(),其中,为第 层的尺度层,为第 层通过 模块得到的特征,为相加融合,()为上采样操作上述方式可增强多尺度特征融合过程中包含的全局语义信息,提高伪装目标分割的精度 定位与捕获机制动物在捕捉猎物时,首先会通过观察定位清楚猎物所在的位置,再出击进行捕获 通过模仿动物捕猎或人眼定位伪装物体的过程,对伪装目标进行位置信息的提取与
13、目标的细化工作,为后续的融合提供有效的先验信息 受到文献 的启发,本文在高层网络中利用定位模块()与聚焦模块()设计定位与捕获机制 模块通过通道注意力机制与空间注意力机制,捕获通道和空间位置方面的长期依赖关系,获取语义增强的高级特征,并进一步生成初始分割图,此处 模块采用与文献 相同的设置,放置在第 尺度层,接收来自 处理后的最高层特征 模块放置在 的下一层,目的是发现并消除错误预测(假阳性与假阴性的预测)模块将输入特征、上级特征和预测结果作为输入,输出细化后的特征和更准确的预测结果本文改进 模块,为了增强融合后的语义信息与保证融合后特征的平滑,本文加入上级融合后的特征,并进行一个 的卷积后再
14、输出 模块的结构图如图 所示 模块首先对上层的预测图进行上采样,并归一化 然后,分别生成前景关注特征和背景关注特征 最后,将这两种类型的特征输入两个平行的上下文语义探索模块(o oo o,o)中进行推理,分别发现假阳性和假阴性 o 由 个上下文探索分支组成,每个分支包括 卷积、卷积及扩张率为 的扩张卷积,其中 ,然后经过逐元素减法消除假阳性(歧义背景),通过归一化和 函数激活后再进行逐元素的加法补充假阴性(缺失的背景),、为可学习的比例参数 最后再通过一次归一化与 激活,加入上级融合的特征后进行一次 的卷积操作后输出特征 o 可描述如下:(),(),o(),其中,为相乘,()为 的卷积操作相乘
15、相乘CE BlockBRCBRCE Block相乘相加相减相加3 3卷积+BR输入特征FRFB上层预测图Fp上采样1上级特征FDGCM上级融合特征 FfBR 归一化+ReLUCBR 卷积 归一化+ReLU图 聚焦模块结构图 如图 所示,提取的特征、通过 提取更丰富的特征,然后通过模块,通过模块 模块对来自 模块与 模块的特征有效融合跨级别特征,可利用多尺度信息缓解尺度变化,获得基于信息注意的融合特征,再与来自 模块的特征融合,送入 模块,挖掘更丰富的上下文信息,增强融合后的特征,最后送入 第 期 童旭巍等:基于全局多尺度特征融合的伪装目标检测网络模块进行细化与融合 同样,通过 模块获得的特征与
16、预测图会传输到第 尺度层的 模块进行融合 具体过程可描述如下:(),(),(,(),(),(),(,),其中 为第 尺度层全局增强模块融合后的特征 损失函数在大多数 方法中,二值交叉熵损失函数应用广泛 本文网络中有两个输出预测,分别在定位模块()处及网络最后的预测输出处,两处采用相同的损失函数 损失函数的设置与目前大多数 相同,采用改进后的加权二值交叉熵损失()和加权交并比损失(o),计算中心像素的差值,给每个像素赋予不同的权重,使有效的像素获得更高的关注 两处输出预测损失:o o 从而网络最终输出的损失为o o实验及结果分析 实验环境实验平台的操作系统为 ,配置o 环境 基于o框架实现网络模型,计算机显卡型号为 采用 在 上的预训练模型作为主干网络,初始学习率为 训练过程中采用“o”学习率衰减策略,在迭代 次后衰减为初始的 使用 作为优化器,迭代次数设置为,批量化大小设置为,聚焦模块中参数 与 初始值设置为 本文在 个公共数据集上评估网络性能 由于伪装目标检测数据集较少,这也是 领域目前使用最广泛的 个基准数据集)数据集 包含 幅图像(训练集 幅,测试集 幅),个类别)数据集(:o