1、第 卷 第 期 年 月传 感 技 术 学 报 .项目来源:国家自然科学基金项目(,)收稿日期:修改日期:,(,;,):,(),:;:基于深度图和时空特征的邮局场景人物交互行为识别王苁蓉,吴静静,(江南大学机械工程学院,江苏 无锡;江苏省食品先进制造装备技术重点实验室,江苏 无锡)摘 要:以邮局快递验视中的人物交互行为识别为应用背景,针对开箱验视过程中的复杂背景干扰和人与物的特定行为模式难以准确描述这两个痛点问题,引入基于深度学习的语义分割机制,提出了一种基于深度图和时空特征的人物交互行为识别方法。首先,使用 语义分割模型在复杂背景中准确提取前景目标(箱体和人手);然后,融合深度和时空信息对箱体
2、和人手进行特征提取,利用深度图像序列中的箱体深度方差以及可见光图像序列中的人手运动轨迹构建特征描述子,对箱体形态变化和人手行为模式进行准确描述,确定人物交互关系;最后,基于 分类算法对开箱和未开箱行为进行判断识别。通过设计消融对比实验及干扰抑制实验,证明所提出的方法具有较高的准确性和鲁棒性,识别准确率可达到,实现了邮局场景下人物交互行为的精确识别。关键词:人物交互行为识别;多源信息融合;语义分割;支持向量机中图分类号:文献标识码:文章编号:()快递在揽收和运输过程中的安全问题越来越受到人们关注,为了防止包裹内存在易燃易爆等危险品,邮局工作人员有必要在快递完成打包前对其进行开箱验视。与传统人工视
3、频分析的方法相比,智能视频监控技术可对快递工作人员的行为进行实时监督与报警,极大提高了监控效率和有效性。因此,需要研究基于计算机视觉的邮局场景人物交互行为识别方法。目前国内外现有的行为识别研究更多聚焦于单人和多人行为,根据所使用数据类型的不同,目前主流的交互行为识别分析方法可以分为基于可见光()信息和基于深度信息两类。早期研究一般是使用基于 信息的方法,如手动构建方向梯度直方图特征、利用光流法提取运动特征等。虽然传统的基于 信息的交互行为识别方法在某些特定的场景下有着较大的优势,但仍存在较多难以解第 期王苁蓉,吴静静:基于深度图和时空特征的邮局场景人物交互行为识别 决的问题,如容易受到背景、光
4、照等干扰因素的影响,在全天候的视频监控应用中难以取得理想效果。随着深度相机的出现和普及,基于深度信息的交互行为识别方法开始进入人们的视野。相比于仅使用 信息的方法,基于深度信息的交互行为识别方法引入新维度信息,利用采集到的三维关节点信息可以更好地对人体行为进行分析,同时也避免了传统 方 法 对 于 颜 色、亮 度 等 要 素 的 依 赖 性。等将利用深度相机采集到的三维关节点数据转换成关节角度特征,并使用支持向量机(,)对人体行为进行了识别;杨文璐等结合骨骼点角度变化的方差和骨骼点间的空间关系提取关键姿势,实现了双人交互行为的准确识别;成科扬等提出了基于骨架的时空建模方法,实现了交互骨架图的有
5、效表示。但是在开箱验视的过程中,若仅仅使用人体骨骼信息,会导致箱体语义信息的丢失。对于如何准确描述邮局场景下人与物的特定行为模式,以上研究并未给出很好的参考和解决方案。针对以上问题,本文结合基于深度学习的语义分割机制,提出了一种基于深度图和时空特征的邮局场景人物交互行为识别方法。针对传统基于 信息的交互行为识别方法抑制干扰能力差、丢失语义信息的问题,引入基于 的语义分割算法准确提取复杂背景中的箱体和人手,获得目标的类别和位置信息;融合深度和可见光信息,对开箱验视过程中箱体形态变化和人手行为模式进行准确描述,确定人物交互关系;最后,训练 分类器对人物交互行为进行识别分析,在背景杂物、光线变化等干
6、扰严重的邮局环境下获得了较高的准确性和鲁棒性。基于深度图和时空特征的邮局场景人物交互行为识别 方法概述本文提出的基于深度图和时空特征的人物交互行为识别算法如图 所示。当检测系统利用背景减除法判断开箱区域内有异常行为触发后,进行视频流的采集;将采集到的视频流图像输入到预训练好的 网络模型中,提取前景中的箱体和人手,获得目标的类别和位置信息;结合深度和可见光信息,构建箱体和人手的特征描述子,确定人物交互关系;最后,利用预训练好的 分类器产生判断结果,实现邮局场景下人物交互行为的精确识别,通过对开箱行为和未开箱行为的判别来保证快递邮寄过程中操作的规范性。图 基于深度图和时空特征的人物交互行为识别算法
7、流程 基于背景减除法的异常行为触发检测本文采用背景减除法判断开箱区域有无行为发生。背景减除法的基本思想是将输入图像与背景模型进行比较,通过灰度、色度等特征的变化来对图像中的运动目标进行提取和分割。()(,)()(,)()(,)()()(,)()(,)()背景减除法的算法如式()和式()所示,其中,()(,)表示当前帧图像()(,)与背景图像()(,)的差值,()(,)表示差值图像的二值化图像。当相机视野范围内无运动目标进入时,检测系统处于待机模式,仅进行视频流与图像帧的获取,选取第一帧图像(,)作为初始的背景图像(,),若场景发生变化,则背景图像会相应进行更新。当检测区域内出现运动目标时,二值
8、图像()(,)中出现大量白色像素点,通过计算白色像素点与图片总像素的比例,并根据经验设置评价标准的上限值 及下限值 即可实现运动目标的提取。当 时,判定开箱区域内有行为发生,此时检测系统进入开箱检测模式。记录当前帧的前一帧为起始点,并将 作为新的背景图代替初始背景图像继续进行背景减除,直至 时判定行为结束并将当前帧记录为结束点。将 至 这一段视频帧作为疑似开箱行为进行后续的处理。若 一直小于 或大于,则判断当前帧存在光照突变现象或检测区域内传 感 技 术 学 报第 卷无行为发生,继续进行下一帧的判断。基于 的前景分割进入开箱检测模式后,需对前景运动目标进行提取,提取后需基于语义信息进一步对前景
9、运动目标中的箱体和人手进行分割。由于传统基于 阈值的分割方法无法区分颜色通常很相近的人手与箱子,同时背景杂物、光线变化等干扰因素也对特征的准确提取有较大影响,故本文选择使用卷积神经网络()来进行前景箱体与人手的分别提取。是目前较流行的用于语义分割的深度学习模型。模型结构简单,只需少量的训练样本就可获得更好的分割性能,结合了底层细节信息和高层语义信息,可以更好地对箱体与人手进行精准分割。网络最早用于医学影像分割中,其网络结构包含特征提取和上采样两部分。本文使用的 网络结构如图 所示,在特征提取的过程中,通过 卷积 激活以及 最大池化,逐步对特征图进行下采样,将输入的样本逐渐减小,同时增加通道数以
10、补偿分辨率的损失。在上采样过程中,对特征图进行 转置卷积以及 卷积,每经过一次上采样,就与特征提取部分对应的通道数相同的尺度融合,逐步恢复图片细节,使得特征图的尺寸逐渐增加、通道数逐渐减少,最终输出语义分割图像。图 本文使用的 网络结构 当检测系统进入开箱检测模式,系统将自动保存疑似开箱行为的彩色图像以及深度图像,将彩色图像序列输入至预训练完成的 网络模型中,输出带有标签的分割结果,从而获得箱体和人手的二值图。如图 所示,与传统基于 阈值的方法相比,模型对于不同种类、颜色的箱体及人手均具有较好的分割效果。对于人手与箱体颜色相近的情况,本文训练的 模型相较于传统方法有着明显的优势,可以实现精准的
11、分割提取,保证语义信息不会丢失,获得前景目标完整的类别和位置信息。图 分割效果与 分割效果对比图 箱体深度特征提取在人物交互行为分析中,物体作为承受行为的主体,其运动特征具有代表性作用。在开箱验视的过程中,若仅仅使用人体骨骼信息,会导致箱体语义信息的丢失,因此本文通过提取箱体深度特征作为判断开箱行为的依据,以确定人物交互关系。由于可见光相机与深度相机具有一定的物理位置差距,为了能够利用 图像的分割结果来对箱体深度图像进行下一步处理,需将箱体的深度图与彩色图进行配准,即将深度图的图像坐标系转换到彩色图的图像坐标系。首先,将深度图的像素点还原到深度坐标系下,直接获取从深度坐标系到彩色坐标系的欧式变
12、换矩阵,最后,将彩色坐标系下的深度点映射到 的彩色平面上。具体算法如式()所示:()式中:表示深度坐标系到彩色坐标系的转换矩阵,表示世界坐标系转换到彩色坐标系的转换矩阵,表示世界坐标系转换到深度坐标系的转换矩阵。根据此公式可以将深度图与彩色图进行配准,配准前、后的深度图与彩色图如图 所示。得到配准后的深度图后,利用 节中得到的箱子二值图可以对深度图像中的前景箱体进行提取。图 展示了快递验视过程中的开箱行为图像序列,包含彩色图、深度图以及提取到前景箱体深度图。第 期王苁蓉,吴静静:基于深度图和时空特征的邮局场景人物交互行为识别 图 深度图配准效果图图 开箱行为图像序列(箱体)在开箱过程中,伴随箱
13、子的开合,其深度会产生较大变化,所以可以选择开箱过程中单帧图像的箱子前景深度值方差作为代表该图像的特征值,深度方差的计算公式如式()所示:图 深度值方差特征向量曲线图 ()()式中:表示前景图像深度值的方差,表示前景图像中像素点的总数,表示第 个像素点的深度值,表示前景图像中所有像素点深度值的平均值。通过计算单帧图像箱体深度前景图的方差,然后按时间序列将多帧图像方差 形成特征向量,以此作为 分类器训练所需的特征向量。为了更直观地分析开箱与未开箱之间特征向量 的差异,本文分别将 组开箱行为(虚线)与 组未开箱行为(实线)图像序列的深度方差按时间顺序绘制成折线图,如图 所示。从图 中可以看出,开箱
14、行为的深度方差随时间变化呈“拱形”趋势,而未开箱行为的深度方差随时间变化呈“平坦”趋势,两者存在较为明显的差异,基于深度方差的特征描述子可以较好地反映人物交互行为过程中箱体形态的变化,可根据此构建箱体的特征向量并利用 分类器对其进行分类识别。人手运动特征提取在人物交互行为分析中,人作为产生行为的主体,其运动特征也具有代表性作用。图 展示了快递验视过程中的开箱行为图像序列,包含彩色图、人手掩膜图以及提取到前景人手彩色图。图 开箱行为图像序列(人手)本文提出了一种基于运动轨迹的人手特征描述方法,用来对 节中经过 网络模型分割所得到的人手二值图进行特征点提取。根据开箱行为的特性,选取两只人手中远离相
15、机的那只,对其二值图像进行像素点遍历。以图像最上方白色像素点所在的行数作为纵坐标,图像最左方白色像素点所在的列数作为横坐标,得到特征点(,)的坐标。计算点 到图像坐标原点的像素距离,按照时间序列将连续帧图像的特征点与原点的距离 形成特征向量,以此作为 训练所需要的特征向量。为了更直观地分析开箱与未开箱之间特征向量的差异,本文分别将以特征点距离 所计算的 组开箱行为(虚线)与 组未开箱行为(实线)的人手运动轨迹按照时间序列绘制成折线图,如图 所示。图 基于特征点距离的人手运动轨迹曲线图从图中可以看出,由于开箱行为中人手持续在一定区域内运动,其特征点距离随时间变化呈“平坦”趋势,而未开箱行为的特征
16、点距离随时间变化呈“跳动”趋势,两者存在较为明显的差异,基于运传 感 技 术 学 报第 卷动轨迹的人手特征描述子可以较好地反映人物交互行为过程中人手的变化,可根据此构建人手的特征向量并利用 分类器对其进行分类识别。本文对前景中的箱体和人手进行准确分割后,分别提取箱体深度特征 和人手轨迹特征。构建包含深度和时空信息的特征向量,输入 分类器对开箱与未开箱行为进行分类,实现人物交互行为的准确识别与检测。实验结果与分析 实验数据集构建与评价指标选取本文研究的快递站场景人物交互行为识别属于具体场景应用,通用行为识别数据集不适合用来验证本文所提 方 法。本 文 使 用 相机模拟快递站的实际环境进行视频数据采集,构建了 多源信息开箱动作数据集,该数据集内的图像分为开箱和未开箱两个动作类别,每个类别下的图像都包含有不同场景、不同开箱人员、不同种类箱子以及变化的光照条件等要素,共 组实验样本,每组实验样本中彩色图像与深度图像的序列约为 帧 帧,以此作为实验的训练集。同时,本文在真实邮局环境下采集了工作人员的开箱和未开箱行为图像序列,共 组,以验证提出方法的有效性和鲁棒性。本文数据集构成如图 所示。图 本