视图分支共享卷积神经网络的多视图人群计数方法

资源描述

1、小型微型计算机系统：年月第期收稿日期：收修改稿日期：基金项目：国家自然科学基金项目（）资助；国家重点研发计划项目（，）资助作者简介：王永会，男，年生，博士，教授，高级会员，研究方向为目标检测、图形图像处理；涂可，男，年生，硕士研究生，研究方向为深度学习、计算机视觉；郦洋，女，年生，硕士研究生，研究方向为深度学习、计算机视觉视图分支共享卷积神经网络的多视图人群计数方法王永会，涂可，郦洋（沈阳建筑大学计算机科学与工程学院，沈阳）：摘要：多视图人群计数，指从多个视角的图片中估计当前场景的人数大多数基于卷积神经网络的方法使用多个同构但独立的分支处理不同视图，在

2、增加模型复杂性的同时，引入大量的冗余特征针对此问题，本文提出一种基于视图分支共享的卷积神经网络模型，使用同一视图分支从不同视角的图片提取出多个尺度对齐的特征图这些特征图被投影到同一个世界平面上进行融合，进而回归出当前场景人群分布密度图在视图分支内部，该模型在保持一定的结构复杂性的同时，减少各卷积层的核数量，极大降低模型可学习的参数数量本文在两个公开数据集（、）上测试了性能，与种已有方法相比较，本文方法能达到更好的性能关键词：人群计数；卷积神经网络；多视图；分支共享中图分类号：文献标识码：文章编号：（），（，）：，：；引言人群计数，旨在估计图片或者视频中的人数，其在活动规划

3、、视频监控等领域发挥着重要作用目前，单视图人群计数方法已经十分成熟，在诸多公开数据集上能够获得稳定且优异的性能然而，在一些实际应用中，单视图人群计数并不十分适用：）对于宽阔场景（如演唱会现场、公园广场），单台摄像机无法做到视野完全覆盖；）对于狭长场景（如地铁候车平台），远处人群在画面中有着较低的分辨率，急剧影响计数性能；）对于有着较多障碍物的场景（如十字路口），部分人群被障碍物遮挡以致无法出现在图片中为了解决上述问题，场景的管理人员需将多台摄像机部署在场景的不同位置，并保证这些摄像机视野之间有着较大的重合区域假设各摄像机固定且已经配准，来自各摄像机的画面已经完成同步多视图人群计数的任

4、务是通过某一时刻多台摄像机在不同视角获取的图片，预测当前场景中的人数传统的多视图人群计数方法主要依赖于前景提取技术以及一些人工设计的特征检测算子，这些方法往往在处理有着大量人群或者障碍物的复杂场景时性能较差近些年来，得益于深度学习的普及以及卷积神经网络（，）强大的特征表示能力，当前领先的多视图人群计数方法均基于深度然而，如图上半部分所示，绝大多数基于的多视图人群计数模型是为每个视图的输入设立结构相同的分支，每个分支先独立地进行多尺度特征的提取，再将提取出的特征融合在一起，最终得到场景密度图在特征融合之前，这些模型等同于将多视图人群计数任务分解成多个独立的单视图人群计数任务一方面，这

5、些独立但同构的视图分支不仅增加了模型的体积，也引入了大量的冗余特征；另一方面，基于的单视图人群计数模型往往会设计有复杂的多尺度特征处理模块本文认为，这种复杂性足以令不同的输入共享同一个视图分支（如图下半部分），且保持模型原有的学习能力基本不变图基于的多视图人群计数框架对比因此，本文提出一种多视图分支共享的卷积神经网络模型（）如图所示，使用同一分支对不同视角的图片进行特征提取以及多尺度选择，然后将多个被选择出的特征图投影到世界空间中的同一平面上进行融合，进而回归出当前场景的人群分布密度图对密度图中所有像素值求和，得到具体人数在特征提取模块内部，在保持骨干网络结构复杂性的同时，减

6、少卷积核的数量，从而使模型可学习的参数更少综上所述，本文的主要贡献有：）提出一种新的多视图人群计数模型，以多视图为输入，预测当前场景人群分布的密度图）多个视角共享同一视图分支，进行特征提取和尺度选择，避免独立视图分支所带来的模型复杂性与特征冗余）特征提取模块使用更少的卷积核，使模型整体上可学习的参数更少图结构图本文在两个公开数据集、上测试了模型的性能与已有方法相比较，有更快的训练速度以及更好的测试精度相关工作无论是单视图人群计数还是多视图人群计数，传统的方法通常都是将人群与背景分离，再利用人工设计的特征进行人群的位置检测或者数量回归基于检测的方法往往不足以应对人数较多的场景，而基于

7、回归的方法，虽然能得到更准确的数量信息，但忽略了人群的位置信息等提出的物体密度图估计，既能预测物体的分布情况，又能通过直接累加密度图中的各像素值，得到物体的个数该方法也成为了所有基于的人群计数方法的基础基于的单视图人群计数已经发展得十分成熟，其主要目标是攻克图片中人的尺度变化以及障碍物的遮挡等首次使用估计人群分布密度图等提出一种列卷积神经网络结构（），通过每列使用不同大小的卷积核，提取图片中不同大小的人近年来，更多复杂的模型被提出，如、以及等同时学习多个尺度的特征以及各自对应的置信度图，并使用置信度图指导多尺度特征的选择上述单视图人群计数方法均是通过不同的结构去估计图片平

8、面内的人群分布密度图在一些宽阔或者狭长场景中，单视图人群计数并不适用为了解决此类问题，多视图人群计数使用不同视角的图片，估计当前场景的人数近些年来，基于的多视图人群计数逐渐引起人们的关注等提出了个基于的网络模型：）晚期融合模型先预测各视角独立的图片平面内的密度图，然后投影到同一个世界平面内进行融合；）简单早期融合模型不直接预测各视角独立的密度图，而是融合各视角的特征图，直接预测一个场景密度图；）多视图多尺度（，）模型在简单早期融合模型的基础上，以图片金字塔为输入，从各视角的图片中提取出多尺度特征这个模型均为各视角的输入设置独立但同构的特征提取以及尺度选择模块，增加了模型的复杂性

9、以及特征的冗余等将各视角图片的特征投影到世界空间中的多个平面而不是单一平面，形成人的某种三维表示，进而预测当前场景的三维密度图该方法利用差分渲染的思想，计算三维密度图在各图片平面上的投影与该平面上预测的二维密度图之间的差值，并利用该差值指导三维密度图的学习然而，这种方法使用的三维密度图是对人群的一种抽象模拟，在三维表示上存在着极大的稀疏性以及不精确性多视图分支共享的卷积神经网络共享的特征提取模块多视图人群计数方法，往往为不同视角的图片设置独立但同构的特征提取模块，这不仅会增加模型整体的复杂性，也会引入过多的冗余特征（见节）然而，各视角的图片之间并不是相互独立的，而是密切关联的假设

10、场景中摄像机固定且已经配准，来自各摄像机的视频帧画面已完成同期王永会等：视图分支共享卷积神经网络的多视图人群计数方法步作为同一组输入的多视图只是在不同摄像机位姿上对同一时刻同一场景的投影因此，令各视角的图片共享同一个特征提取模块，通过各视角之间的紧耦合，提升特征的利用率如图所示，受启发于，本文设计了一种具有一定结构复杂性的特征提取模块在该模块内部，骨干网络的不同中间层被用来提取出输入图片的多个尺度的特征本文共使用个尺度，分别表示距离摄像机远、中、近的人群，不同尺度之间的下采样跨度为骨干网络可以被分解成多个编码块与解码块输入的图片先经过不同尺度的编码块编码，形成内部表示，

11、再由对应的解码块解码，形成包含各自尺度信息的特征，图编码块与解码块的内部结构编码块与解码块的内部结构如图所示在编码部分，上层编码块的输出先被下采样到与相同的尺度，再经由两层卷积编码，得到下层编码块的输出同时，也会被送往对应尺度的解码块，参与解码过程在解码部分，下层解码块的输出先被上采样到与相同的尺度，再与在通道方向上连接新的特征图经由两层卷积解码，得到上层解码块的输出每层解码块的输出即为一个尺度的特征具体地，本文使用核大小以及跨度均为的最大池化层来进行下采样，使用双线性插值进行上采样编码块与解码块均使用核大小为、跨度为的卷积层图中标注了各阶段输出特征图的通

12、道数该特征提取模块与的区别主要有两点：）更强调编码块与解码块作为流水管线中独立的模块而存在，不同模块之间以输入输出相连接）使用的前若干卷积层与池化层作为骨干网络，而该模块使用更少的卷积核，极大降低模型整体的可学习参数数量共享的尺度选择模块如图所示，在经过特征提取模块之后，输入的图片被提取出个通道数不一致的特征图，每个特征图都包含有一个级别（远、中、近）的尺度特征然而，这种离散的划分不足以描述图片中连续的尺度变化一种简单的“连接均分”策略可以被用来缓解这一问题具体做法如下：先分别对，进行上采样，使它们在空间维度上保持对齐对齐之后的特征图仍然保留有已学习到的多尺度特征再将这些特征

13、图在通道方向上连接在一起，然后按总的通道数均分出个新的特征图，新的个特征图在空间维度以及通道数上均保持一致由于总的通道数可能无法被整除，少量特征图直接被舍弃实验表明，这种简单的策略可以在一定程度上缓解尺度的不连续性（见节）如图所示，一种可学习的尺度选择方法可以被用来从，中选择出各空间位置上最适合的尺度特征（，）表示中某空间位置（，）上对应的尺度选择权重对，加权求和，即可得到最终被选择出的特征图，为按空间位置相乘（，）的计算可分为两步，首先将深度数据绑定到尺度的选择图（，）上，然后令（，）通过函数，得到最后的（，）（，）（，）（，）（）（，）的计算如公式（）所示其中，表示

14、第个尺度，为对数缩放因子，和为可学习的参数，为引用的深度值和的学习可通过一个的卷积来实现给定某台摄像机，深度图（，）表示图片空间中某点（，）在世界空间（均高平面）的投影与该摄像机的欧式距离（，）（，）（）与文献不同的是，对于从给定摄像机计算得到的深度图，该模块选用其中心深度作为引用的深度值通过使用各视角独立的引用值对深度图进行缩放，该尺度选择策略与视角信息相解耦因此，如同共享同一个特征提取模块，多视图也共享同一个尺度选择模块图一种可学习的尺度选择策略从图片空间到世界空间的投影多视图人群计数的任务是预测当前世界空间中场景的整体人群分布情况因此，从各视角独立的图片空间中提取出

15、的特征，需要被投影到同一个世界空间中进行融合考虑到三维特征图的低效性与稀疏性，本文选定世界空间中的某固定平面作为投影面，使得特征从图片空间到世界空间的投影简化为两平面之间的单应性变换根据文献，合适的投影面为平行于地面、高度为成年人平均高度毫米的平面（简称为“均高平面”）假设场景中多台摄像机固定且已经配准，即摄像机的内部参数、旋转、以及位置均已知如公式（）所示，单应性矩阵，可以将均高平面上的坐标转换到图片平面上|，|（）其中，（，）表示图片平面上的坐标，（，）表示均高小型微型计算机系统年平面上的坐标，是可逆矩阵，从图片平面到世界平面中的单应性变换是一个线性且可微的过

16、程最后，空间变换网络中的采样器可以被用来完成具体的投影过程损失函数损失函数由两部分组成首先，欧式距离被用来衡量预测密度图与真实密度图之间像素级别的损失（）其中，为场景密度图中像素的个数，表示预测密度图中第个像素，表示真实密度图中第个像素欧氏距离可以衡量两张图片中独立像素之间的差值，但忽略了像素与像素之间的关联性因此，局部一致性损失被加入到损失函数中（）（）结构相似性指标（）可以被用来衡量图片中两个位置和之间的局部一致性其计算公式为，（，）（）（）（）（）（）、分别为以、为中心的局部区域的均值，、分别为以和为中心的局部区域的方差，为相应的协方差和为两个常量，用来控制除法计算的稳定性跟随文献中的设置，本文定义以某像素位置为中心、大小为的区域为感兴趣的局部区域，并使用标准差为的规范化后的高斯核去计算该区域内的均值与方差最终的损失函数由与加权而得，（）为平衡欧式距离损失与局部一致性损失的权重通过实验，合适的值为实验数据集本文在以下两个公开数据集上验证了的有效性图为一些测试实例是一个多视图序列数据集，其记录了个视图的人群活动情况每

展开阅读全文

视图分支共享卷积神经网络的多视图人群计数方法_王永会.pdf