1、小 型 微 型 计 算 机 系 统 :年 月 第 期 收稿日期:收修改稿日期:基金项目:国家自然科学基金项目()资助;国家重点研发计划项目(,)资助 作者简介:王永会,男,年生,博士,教授,高级会员,研究方向为目标检测、图形图像处理;涂 可,男,年生,硕士研究生,研究方向为深度学习、计算机视觉;郦 洋,女,年生,硕士研究生,研究方向为深度学习、计算机视觉视图分支共享卷积神经网络的多视图人群计数方法王永会,涂 可,郦 洋(沈阳建筑大学 计算机科学与工程学院,沈阳):摘 要:多视图人群计数,指从多个视角的图片中估计当前场景的人数 大多数基于卷积神经网络的方法使用多个同构但独立的分支处理不同视图,在
2、增加模型复杂性的同时,引入大量的冗余特征 针对此问题,本文提出一种基于视图分支共享的卷积神经网络模型,使用同一视图分支从不同视角的图片提取出多个尺度对齐的特征图 这些特征图被投影到同一个世界平面上进行融合,进而回归出当前场景人群分布密度图 在视图分支内部,该模型在保持一定的结构复杂性的同时,减少各卷积层的核数量,极大降低模型可学习的参数数量 本文在两个公开数据集(、)上测试了性能,与 种已有方法相比较,本文方法能达到更好的性能关 键 词:人群计数;卷积神经网络;多视图;分支共享中图分类号:文献标识码:文 章 编 号:(),(,):,:;引 言人群计数,旨在估计图片或者视频中的人数,其在活动规划
3、、视频监控等领域发挥着重要作用 目前,单视图人群计数方法已经十分成熟,在诸多公开数据集上能够获得稳定且优异的性能 然而,在一些实际应用中,单视图人群计数并不十分适用:)对于宽阔场景(如演唱会现场、公园广场),单台摄像机无法做到视野完全覆盖;)对于狭长场景(如地铁候车平台),远处人群在画面中有着较低的分辨率,急剧影响计数性能;)对于有着较多障碍物的场景(如十字路口),部分人群被障碍物遮挡以致无法出现在图片中 为了解决上述问题,场景的管理人员需将多台摄像机部署在场景的不同位置,并保证这些摄像机视野之间有着较大的重合区域 假设各摄像机固定且已经配准,来自各摄像机的画面已经完成同步 多视图人群计数的任
4、务是通过某一时刻多台摄像机在不同视角获取的图片,预测当前场景中的人数传统的多视图人群计数方法主要依赖于前景提取技术以及一些人工设计的特征检测算子,这些方法往往在处理有着大量人群或者障碍物的复杂场景时性能较差 近些年来,得益于深度学习的普及以及卷积神经网络(,)强大的特征表示能力,当前领先的多视图人群计数方法均基于深度 然而,如图 上半部分所示,绝大多数基于 的多视图人群计数模型是为每个视图的输入设立结构相同的分支,每个分支先独立地进行多尺度特征的提取,再将提取出的特征融合在一起,最终得到场景密度图 在特征融合之前,这些模型等同于将多视图人群计数任务分解成多个独立的单视图人群计数任务 一方面,这
5、些独立但同构的视图分支不仅增加了模型的体积,也引入了大量的冗余特征;另一方面,基于 的单视图人群计数模型往往会设计有复杂的多尺度特征处理模块 本文认为,这种复杂性足以令不同的输入共享同一个视图分支(如图 下半部分),且保持模型原有的学习能力基本不变图 基于 的多视图人群计数框架对比 因此,本文提出一种多视图分支共享的卷积神经网络模型()如图 所示,使用同一分支对不同视角的图片进行特征提取以及多尺度选择,然后将多个被选择出的特征图投影到世界空间中的同一平面上进行融合,进而回归出当前场景的人群分布密度图 对密度图中所有像素值求和,得到具体人数 在特征提取模块内部,在保持骨干网络结构复杂性的同时,减
6、少卷积核的数量,从而使模型可学习的参数更少 综上所述,本文的主要贡献有:)提出一种新的多视图人群计数模型,以多视图为输入,预测当前场景人群分布的密度图)多个视角共享同一视图分支,进行特征提取和尺度选择,避免独立视图分支所带来的模型复杂性与特征冗余)特征提取模块使用更少的卷积核,使模型整体上可学习的参数更少图 结构图 本文在两个公开数据集、上测试了模型的性能 与已有方法相比较,有更快的训练速度以及更好的测试精度 相关工作无论是单视图人群计数还是多视图人群计数,传统的方法通常都是将人群与背景分离,再利用人工设计的特征进行人群的位置检测或者数量回归 基于检测的方法往往不足以应对人数较多的场景,而基于
7、回归的方法,虽然能得到更准确的数量信息,但忽略了人群的位置信息 等提出的物体密度图估计,既能预测物体的分布情况,又能通过直接累加密度图中的各像素值,得到物体的个数 该方法也成为了所有基于 的人群计数方法的基础基于 的单视图人群计数已经发展得十分成熟,其主要目标是攻克图片中人的尺度变化以及障碍物的遮挡 等首次使用 估计人群分布密度图 等提出一种 列卷积神经网络结构(),通过每列使用不同大小的卷积核,提取图片中不同大小的人 近年来,更多复杂的模型被提出,如、以及 等同时学习多个尺度的特征以及各自对应的置信度图,并使用置信度图指导多尺度特征的选择上述单视图人群计数方法均是通过不同的 结构去估计图片平
8、面内的人群分布密度图 在一些宽阔或者狭长场景中,单视图人群计数并不适用 为了解决此类问题,多视图人群计数使用不同视角的图片,估计当前场景的人数近些年来,基于 的多视图人群计数逐渐引起人们的关注 等提出了 个基于 的网络模型:)晚期融合模型先预测各视角独立的图片平面内的密度图,然后投影到同一个世界平面内进行融合;)简单早期融合模型不直接预测各视角独立的密度图,而是融合各视角的特征图,直接预测一个场景密度图;)多视图多尺度(,)模型在简单早期融合模型的基础上,以图片金字塔为输入,从各视角的图片中提取出多尺度特征 这 个模型均为各视角的输入设置独立但同构的特征提取以及尺度选择模块,增加了模型的复杂性
9、以及特征的冗余 等将各视角图片的特征投影到世界空间中的多个平面而不是单一平面,形成人的某种三维表示,进而预测当前场景的三维密度图 该方法利用差分渲染的思想,计算三维密度图在各图片平面上的投影与该平面上预测的二维密度图之间的差值,并利用该差值指导三维密度图的学习 然而,这种方法使用的三维密度图是对人群的一种抽象模拟,在三维表示上存在着极大的稀疏性以及不精确性 多视图分支共享的卷积神经网络 共享的特征提取模块多视图人群计数方法,往往为不同视角的图片设置独立但同构的特征提取模块,这不仅会增加模型整体的复杂性,也会引入过多的冗余特征(见 节)然而,各视角的图片之间并不是相互独立的,而是密切关联的 假设
10、场景中摄像机固定且已经配准,来自各摄像机的视频帧画面已完成同 期 王永会 等:视图分支共享卷积神经网络的多视图人群计数方法 步 作为同一组输入的多视图只是在不同摄像机位姿上对同一时刻同一场景的投影 因此,令各视角的图片共享同一个特征提取模块,通过各视角之间的紧耦合,提升特征的利用率如图 所示,受启发于,本文设计了一种具有一定结构复杂性的特征提取模块 在该模块内部,骨干网络的不同中间层被用来提取出输入图片的多个尺度的特征 本文共使用 个尺度,分别表示距离摄像机远、中、近的人群,不同尺度之间的下采样跨度为 骨干网络可以被分解成多个编码块与解码块 输入的图片先经过不同尺度的编码块编码,形成内部表示,
11、再由对应的解码块解码,形成包含各自尺度信息的特征,图 编码块与解码块的内部结构 编码块与解码块的内部结构如图 所示 在编码部分,上层编码块的输出 先被下采样到与 相同的尺度,再经由两层卷积编码,得到下层编码块的输出 同时,也会被送往对应尺度的解码块,参与解码过程 在解码部分,下层解码块的输出 先被上采样到与 相同的尺度,再与 在通道方向上连接 新的特征图经由两层卷积解码,得到上层解码块的输出 每层解码块的输出即为一个尺度的特征具体地,本文使用核大小以及跨度均为 的最大池化层来进行下采样,使用双线性插值进行上采样 编码块与解码块均使用核大小为 、跨度为 的卷积层 图 中标注了各阶段输出特征图的通
12、道数该特征提取模块与 的区别主要有两点:)更强调编码块与解码块作为流水管线中独立的模块而存在,不同模块之间以输入输出相连接)使用 的前若干卷积层与池化层作为骨干网络,而该模块使用更少的卷积核,极大降低模型整体的可学习参数数量 共享的尺度选择模块如图 所示,在经过特征提取模块之后,输入的图片被提取出 个通道数不一致的特征图,每个特征图都包含有一个级别(远、中、近)的尺度特征 然而,这种离散的划分不足以描述图片中连续的尺度变化 一种简单的“连接均分”策略可以被用来缓解这一问题 具体做法如下:先分别对,进行上采样,使它们在空间维度上保持对齐对齐之后的特征图仍然保留有已学习到的多尺度特征 再将这些特征
13、图在通道方向上连接在一起,然后按总的通道数均分出 个新的特征图,新的 个特征图在空间维度以及通道数上均保持一致 由于总的通道数可能无法被 整除,少量特征图直接被舍弃 实验表明,这种简单的策略可以在一定程度上缓解尺度的不连续性(见 节)如图 所示,一种可学习的尺度选择方法可以被用来从,中选择出各空间位置上最适合的尺度特征(,)表示 中某空间位置(,)上对应的尺度选择权重 对,加权求和,即可得到最终被选择出的特征图 ,为按空间位置相乘(,)的计算可分为两步,首先将深度数据绑定到尺度的选择图(,)上,然后令(,)通过 函数,得到最后的(,)(,)(,)(,)()(,)的计算如公式()所示 其中,表示
14、第 个尺度,为对数缩放因子,和 为可学习的参数,为引用的深度值 和 的学习可通过一个 的卷积来实现 给定某台摄像机,深度图(,)表示图片空间中某点(,)在世界空间(均高平面)的投影与该摄像机的欧式距离(,)(,)()与文献不同的是,对于从给定摄像机计算得到的深度图,该模块选用其中心深度作为引用的深度值 通过使用各视角独立的引用值对深度图进行缩放,该尺度选择策略与视角信息相解耦 因此,如同共享同一个特征提取模块,多视图也共享同一个尺度选择模块图 一种可学习的尺度选择策略 从图片空间到世界空间的投影多视图人群计数的任务是预测当前世界空间中场景的整体人群分布情况 因此,从各视角独立的图片空间中提取出
15、的特征,需要被投影到同一个世界空间中进行融合 考虑到三维特征图的低效性与稀疏性,本文选定世界空间中的某固定平面作为投影面,使得特征从图片空间到世界空间的投影简化为两平面之间的单应性变换 根据文献,合适的投影面为平行于地面、高度为成年人平均高度 毫米的平面(简称为“均高平面”)假设场景中多台摄像机固定且已经配准,即摄像机的内部参数、旋转、以及位置 均已知 如公式()所示,单应性矩阵,可以将均高平面上的坐标转换到图片平面上|,|()其中,(,)表示图片平面上的坐标,(,)表示均高 小 型 微 型 计 算 机 系 统 年平面上的坐标,是可逆矩阵,从图片平面到世界平面中的单应性变换是一个线性且可微的过
16、程 最后,空间变换网络中的采样器可以被用来完成具体的投影过程 损失函数损失函数由两部分组成 首先,欧式距离 被用来衡量预测密度图与真实密度图之间像素级别的损失 ()其中,为场景密度图中像素的个数,表示预测密度图中第 个像素,表示真实密度图中第 个像素 欧氏距离可以衡量两张图片中独立像素之间的差值,但忽略了像素与像素之间的关联性 因此,局部一致性损失 被加入到损失函数中 ()()结构相似性指标()可以被用来衡量图片中两个位置 和 之间的局部一致性 其计算公式为,(,)()()()()()、分别为以、为中心的局部区域的均值,、分别为以 和 为中心的局部区域的方差,为相应的协方差 和 为两个常量,用来控制除法计算的稳定性 跟随文献中的设置,本文定义以某像素位置为中心、大小为 的区域为感兴趣的局部区域,并使用标准差为 的规范化后的高斯核去计算该区域内的均值与方差最终的损失函数由 与 加权而得,()为平衡欧式距离损失与局部一致性损失的权重 通过实验,合适的 值为 实 验 数据集本文在以下两个公开数据集上验证了 的有效性 图 为一些测试实例是一个多视图序列数据集,其记录了 个视图的人群活动情况 每