1、MSIANet:多尺度交互注意力人群计数网络张世辉赵维勃*王磊王威李群鹏(燕山大学信息科学与工程学院秦皇岛066004)(河北省计算机虚拟技术与系统集成重点实验室秦皇岛066004)摘要:尺度变化、遮挡和复杂背景等因素使得拥挤场景下的人群数量估计成为一项具有挑战性的任务。为了应对人群图像中的尺度变化和现有多列网络中规模限制及特征相似性问题,该文提出一种多尺度交互注意力人群计数网络(Multi-ScaleInteractiveAttentioncrowdcountingNetwork,MSIANet)。首先,设计了一个多尺度注意力模块,该模块使用4个具有不同感受野的分支提取不同尺度的特征,并将各
2、分支提取的尺度特征进行交互,同时,使用注意力机制来限制多列网络的特征相似性问题。其次,在多尺度注意力模块的基础上设计了一个语义信息融合模块,该模块将主干网络的不同层次的语义信息进行交互,并将多尺度注意力模块分层堆叠,以充分利用多层语义信息。最后,基于多尺度注意力模块和语义信息融合模块构建了多尺度交互注意力人群计数网络,该网络充分利用多层次语义信息和多尺度信息生成高质量人群密度图。实验结果表明,与现有代表性的人群计数方法相比,该文提出的MSIANet可有效提升人群计数任务的准确性和鲁棒性。关键词:人群计数;估计密度图;注意力机制;多尺度特征中图分类号:TN911.73;TP391.41文献标识码
3、:A文章编号:1009-5896(2023)06-2236-10DOI:10.11999/JEIT220644MSIANet:Multi-scale Interactive Attention Crowd Counting NetworkZHANGShihuiZHAOWeiboWANGLeiWANGWeiLIQunpeng(School of Information Science and Engineering,Yanshan University,Qinhuangdao 066004,China)(The Key Laboratory for Computer Virtual Techno
4、logy and System Integration of Hebei Province,Qinhuangdao 066004,China)Abstract:Factorssuchasscalevariation,occlusionandcomplexbackgroundsmakecrowdnumberestimationincrowdedscenesachallengingtask.Tocopewiththescalevariationincrowdimagesandthescopelimitationandthefeaturesimilarityprobleminexistingmult
5、i-columnnetworks,aMulti-ScaleInteractiveAttentioncrowdcountingNetwork(MSIANet)isproposedinthispaper.Firstly,amulti-scaleattentionmoduleisdesigned,whichusesfourbrancheswithdifferentperceptualfieldstoextractfeaturesatdifferentscalesandinteractsthescalefeaturesextractedfromeachbranch.Atthesametime,anat
6、tentionmechanismisusedtolimitthefeaturesimilarityproblemofthemulti-columnnetwork.Secondly,asemanticinformationfusionmoduleisdesignedbasedonthemulti-scaleattentionmodule,whichinteractsdifferentlevelsofsemanticinformationofthebackbonenetworkandstacksthemulti-scaleattentionmoduleinlayerstomakefulluseof
7、themulti-layersemanticinformation.Finally,amulti-scaleinteractiveattentioncrowdcountingnetworkisconstructedbasedonthemulti-scaleattentionmoduleandthesemanticinformationfusionmodule,whichmakesfulluseofmulti-levelsemanticinformationandmulti-scaleinformationtogeneratehigh-qualitycrowddensitymaps.Theexp
8、erimentalresultsshowthatcomparedwiththeexistingrepresentativecrowdcountingmethods,theproposedMSIANetcaneffectivelyimprovetheaccuracyandrobustnessofthecrowdcountingtask.Key words:Crowdcounting;Estimateddensitymap;Attentionmechanism;Multi-scalefeatures收稿日期:2022-05-19;改回日期:2022-07-29;网络出版:2022-08-22*通信
9、作者:赵维勃基金项目:中央引导地方科技发展资金项目(216Z0301G),河北省自然科学基金(F2019203285),河北省创新能力提升计划项目(22567626H)FoundationItems:TheCentralGovernmentGuidedLocalFundsforScienceandTechnologyDevelopment(216Z0301G),TheNaturalScienceFoundationofHebeiProvinceinChina(F2019203285),InnovationCapabilityImprovementPlanProjectofHebeiProvin
10、ce(22567626H)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.20231 引言人群计数是计算机视觉和智能监控领域的重要研究内容,其目的是估计图像或视频场景中的人数。它在安全监测、交通管理、城市规划等领域有着广泛应用。例如:在疫情期间,控制人群密度可以降低出现聚集性传播的概率;在景区、体育场和广场等人群高度聚集的区域,通过发出预警信息可以防止出现踩踏事故等。近年来,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的人群计数方法1,2已经成为人群计数
11、的主流方法,其基本思想是使用CNN生成估计密度图,给每个像素赋予密度值,密度图的密度值总和记为场景中的总人数。目前,由于拍摄距离和角度差异导致的尺度变化问题严重影响了计数结果的准确性。为了应对人群图像的尺度变化问题,研究人员引入了多列网络。然而,现有的多列网络存在诸多问题,如:网络规模的限制导致只能提取特定的尺度信息、各列提取的特征具有相似性、网络规模复杂导致计算量增加等。为了解决上述问题,本文提出了一种新颖的多尺度交互注意力人群计数网络(Multi-ScaleInter-activeAttentioncrowdcountingNetwork,MSI-ANet)。MSIANet使用交互结构和注
12、意力机制应对多列网络的规模限制及特征相似性问题,并使用主干网络的多层语义信息提供更为丰富的细节特征。具体而言,本文的主要贡献如下:(1)设计了一个多尺度注意力模块(Multi-ScaleAttentionModule,MSAM)以提取丰富的多尺度信息。该模块利用交互结构和注意力机制提升了提取多尺度信息的能力和对有价值信息的敏感度,克服了传统多列网络中的规模限制及特征相似性问题。(2)在MSAM的基础上,设计了一个语义信息融合模块(SemanticInformationFusionModule,SIFM)对主干网络的不同层次的语义信息进行交互和融合。SIFM使用多层语义信息能够比仅使用高层的语义
13、信息提供更为丰富的细节特征,增强网络的特征聚合能力,提升了对主干网络的利用效率。(3)以MASM和SIFM为基础,提出了一个多尺度交互注意力人群计数网络(MSIANet)。不同于现有多列网络各分支独立工作的方式,本文网络在使用多列结构的同时,将各分支提取的不同尺度特征进行交互,使有限的网络规模能够提取更为丰富的尺度信息,提升了网络对全局尺度特征的处理能力。在3个公开数据集上的大量实验结果表明,与现有代表性的人群计数方法相比,MSIANet取得了更好的性能。2 相关工作随着智慧城市和平安社会建设步伐的加快,人群计数越来越受到学者的关注。传统的人群计数方法主要分为两类:基于检测的方法3,4和基于回
14、归的方法5,6。近年来,CNN在特征提取方面取得了令人满意的效果,使其成为很多任务的主流方法。2.1 基于CNN的人群计数方法基于CNN的人群计数方法主要分为两类:基于单列网络的人群计数方法和基于多列网络的人群计数方法。2.1.1 基于单列网络的人群计数方法Li等人7提出的CSRNet是最具代表性的基于单列网络的人群计数方法,其使用膨胀卷积神经网络作为后端网络,在增大了感受野的同时保持了特征图像的分辨率。Oh等人8提出的DUBNet是一个用于人群计数的可扩展单列网络框架,使用点估计的不确定性量化提高计数性能。Xu等人9提出了一种利用部分注释进行监督学习的单列网络人群计数方法,以降低标注的成本。
15、Xu等人10提出的Auto-Scale则通过缩放图片以获得不同尺度的特征提升计数效果。Ma等人11提出的FusionCount是一种用于人群计数的编码器-解码器单列网络,利用编码特征的自适应融合来获得多尺度特征。单列网络模型虽然容易训练且参数量少,但是由于对多尺度特征不够敏感,因此计数性能受到限制。2.1.2 基于多列网络的人群计数方法由于人群图像中普遍存在尺度变化的问题,严重影响CNN模型计数的准确性。为了解决图像中人群尺度变化对计数性能的影响,研究人员开发了多列网络。Zhang等人12提出的MCNN是最早使用多列网络应对人群计数任务中尺度变化的方法之一,该模型使用3个具有不同感受野的网络分
16、支提取多尺度特征,在一定程度上缓解了多尺度问题对计数精度的影响。Cao等人13提出SANet,该网络堆叠多个多尺度模块作为编码器提取多尺度特征,然后使用一组转置卷积作为解码器生成高分辨率密度图。Sam等人14提出Swich-CNN,该网络单独训练了一个分类器赋予图像块不同的密度等级,然后让不同密度等级的图像块通过对应的子网络,所有图像块的估计结果构成了原图的估计结果。Jiang等人15提出的TEDNet是一种网格状的编码器-解码器人群计数网络,其内部使用具有4个分支的多尺度编码块获取多尺度特征。Yang等人16提出了一种有效的多列网络,将透视分析嵌入到具有循环连接的多列框架中以提高计数性能。Lian等人17提出了一种双路径引导检测网络DPDNet,该模型使用第6期张世辉等:MSIANet:多尺度交互注意力人群计数网络2237两个引导分支引导密度图的生成,提升了对小尺寸头部的检测能力。Zand等人18提出使用3个不同深度的网络分支获取多尺度信息,并结合检测任务以提升计数性能。总体而言,多列网络大都通过使用不同感受野的网络分支提取不同的尺度信息。然而受限于网络的规模,离散的感受野并不能适应