收藏 分享(赏)

基于改进时空异构双流网络的行为识别_姜海燕.pdf

上传人:哎呦****中 文档编号:2574072 上传时间:2023-07-24 格式:PDF 页数:6 大小:2.04MB
下载 相关 举报
基于改进时空异构双流网络的行为识别_姜海燕.pdf_第1页
第1页 / 共6页
基于改进时空异构双流网络的行为识别_姜海燕.pdf_第2页
第2页 / 共6页
基于改进时空异构双流网络的行为识别_姜海燕.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 年月第 卷第期计算机工程与设计 基于改进时空异构双流网络的行为识别姜海燕,韩军,(上海大学 通信与信息工程学院,上海 ;上海先进通信与数据科学研究院,上海 )摘要:针对主流的双流卷积神经网络在提取特征过程中,存在特征利用率低、忽略特征图各个部分之间的相互作用以致区分相似动作效果不佳的问题,提出一种基于深度特征融合和注意力机制的行为识别方法。利用不同层次卷积神经网络特征的互补优势,将网络中的低层和高层信息相融合,引入改进的注意力机制,捕获人体行为整体特征和不同类别之间的细微差别,提高网络性能。在数据集 上取得了 的识别效果,将 数据集预训练网络模型迁移至相似动作数据集 上,同样表现良好,验证了

2、所提方法的有效性。关键词:特征融合;注意力机制;时序分割网络;时空异构双流网络;双流网络;行为识别;深度学习中图法分类号:文献标识号:文章编号:():收稿日期:;修订日期:基金项目:国家自然科学基金项目()作者简介:姜海燕(),女,江西宜春人,硕士研究生,研究方向为深度学习、行为识别;韩军(),男,河南三门峡人,高级工程师,硕士生导师,研究方向为视频分析处理和无人机电力线巡检。:,(,;,):,:;引言近年来,深度卷积神经网络被广泛应用于视频行为识别。等提出了一种用于视频行为识别的由空间网络和时间网络构成的两流架构,但该网络存在只关注表观特征和短时运动信息的问题,针对上述问题,等设计了一种视频

3、级分段结构,称为时序分割网络(,),它可以有效利用多个双流网络来学习特征和检索长时运动信息。注意力机制在神经网络中的应用越来越广泛,等对空间注意力机制进行了详尽的分析,该机制能够使网络更加关注特定空间区域的信息。等提出通道注计算机工程与设计 年意力,挤压和激励网络,对重要程度不同的通道赋予不同的权重。研究结果表明,身体不同部分之间的相互作用有利于人体行为类别的识别。而上述注意力机制仅仅关注特征图的某个通道或区域,不能建模特征图各个部分之间的相互作用对识别结果造成的影响,对于近似动作的识别效果较差,限制了识别率的提高。针对现有识别方法存在的问题,在 的基础上提出深度 特 征 融 合 和 引 入

4、改 进 的 注 意 力 机 制。本 文 工 作 归纳如下:()时空异构双流网络(,):利用 提高 的同质双流网络性能;()深度特征融合(,):将具有高分辨率的低层特征与具有更强语义的高层特征相融合,利用其互补性提高相似动作的识别率;()改 进 的 注 意 力 机 制(,):引入改进的注意力机制,对特征图各个部分的权重图进行重新分配,以捕获动作之间的细节差别,提高相似动作的识别率。基于行为检测的时空异构双流网络 时空异构双流网络视频是空间和时间信息的集合。文献 中提到人类视觉皮层系统使用空间流和时间流处理信息。在空间流中,信息是静态图像外观,它只描绘场景和物体。在时间流中,信息是物体在连续帧之间

5、的运动,传达了相机和物体的方向。受此启发,提出一个用于行为识别的时空异构双流网络,在这个网络结构中,利用两个不同的 模型从视频中检索空间和时间特征。对于空间信息,使用 帧提取静态表观特征。对于时间信息,使用密集光流帧提取动态运动特征。提出该架构的原因有二:其一是当两个相似的卷积神经网络在两个流上进行训练并融合时,会产生大量的冗余特征,因为密集光流帧本身就是来自 图像帧的水平和垂直分量。其二是在人体行为识别中,对目标形状和动作的观察和识别是两个完全不同的过程,因此,应该独立设计适合时空网络的网络结构。具体来说,时空异构双流网络()旨在利用整个视频的视觉信息来执行视频级的预测。不是在单帧图像或短时

6、间内的一堆图像帧工作,而是从视频中稀疏采样得到的一系列片段进行操作,每个片段都将产生它自己的动作类的初步预测,然后片段之间的共识将被导出作为视频级别的预测。结构如图所示,最左边是一个视频,用表示,将分 成份,用(,)表 示。可用式()表示(,)(;),(;),(;)()式中:(,)表示个片段,是从(,)的视频片段中随机采样出来的一个小片段,每个片段中包含一帧 图片和两帧光流图片。(;)是表示带有参数的改进空间流网络或时间流网络的函数,对片段进行操作并生成所有类的类分数。分段共识()函数结合多 个 片段的输出。函 数(函数)预测视频中动作所属类别的概率。图时空异构双流网络结构 空间流网络优秀的动

7、作识别模型能够检索更多离散的空间特征和时间特征。文献,中的研究结果表明,更深层次的卷积神经网络模型()可以提取离散特征,增加网络的深度可以在视频中学习到更多的特征。故选取 和 作为本文模型的底层网络。用于检索空间和时间特征,而 用于提高模型的性能,本文通过研究这两个模型来探索不同的双流网络的潜力。网络 被用作空间流网络,它可以从帧中提取出第 卷第期姜海燕,韩军:基于改进时空异构双流网络的行为识别有区别的特征。在该网络中,使用残差单元代替原始的低层拟合函数训练残差网络,来解决网络层数增加带来的网络性能下降的问题。使用残差网络的优势在于它能作为连接第一层到网络中的任何一层的快捷连接,打破了一层连接

8、下一层的传统形式。如此,梯度损失就能跳过一些层,从损失层传递到它所连接的任何层,这样就可以避免梯度爆炸问题。而且这种连接不会增加计算成本和参数数量。深度特征融合为了利用不同层次卷积神经网络特征的互补优势,将网络中包含更多细节的高分辨率低层信息和包含更强语义的低分辨率高层信息相融合,重构特征图上的特征信息,提高相似动作的识别率。低层卷积主要提取纹理、颜色等信息,而高层卷积提取的信息更具代表性,两者融合有利于捕获人体行为的整体特征,以及不同类别之间的细节特征。改进后的 网络结构如图所示,其工作原理如下:假设输入图像的尺寸大小是 ,首先经过尺寸为、步长为的卷积层提取输入图像的特征,得到 个 大小的特

9、征图,然后经过尺寸为、步长为的卷积层进行最大池化,得到 个 大小的特征图,将得到的特征图依次经过残差块(分别从 到 ),得到大小为 的特征图,再经过一个平均池化层输出大小为 的特征图,将特征图展开成维向量,作为全连接层的输入之一,并且,将低层卷积过后的特征也将其展开成维向量,作为全连接层的输入,最后得到大小为 的向量。如图所示,以融合 层的输出特征和 层的输出特征为例,首先,输入图像(图像尺寸大小是 )在经过卷积层和最大池化层之后会得到大小为 的特征图,表示得到的特征图的长和宽,表示通道数,再将这些特征送入 层,经过个残差单元后得到的特征作为 层输入的同时,对该图改进的 网络结构特征进行平均池

10、化后通过的卷积核降维得到低层特征,将低层特征与 层的特征进行融合,作为全连接层的输入。时间流网络 网络 被用作时间流网络,它能够降低整个网络的复杂度。网络中引入的批归一化层(,)能够避免网络输出较大的分布变化,而且可通过将每一层的输出归一化到(,),减少内部协变量偏移。同时,网络在 模块中使用两个卷积替换卷积,这种卷积的替代不仅减少了计算的复杂程度,还能够增加更多的非线性变换,增强模型学习特征的能力。注意力机制注 意 力 机 制 已 被 验 证 对 图 像 和 视 频 数 据 都 很 有效 ,故受计算机视觉中经典的 的启发,任何输入特征图中任意两点之间的关系有助于远距离信息的传递。因此,本文通

11、过考虑所有其它位置来计算输入特征图中每个位置的注意响应,提出改进的注意力机制来解决网络中忽略特征图各个部 分 之间 的相互作 用的 问题,模块结构如图()所示。改进后的网络能够在训练过程中通过重新分配特征图各个部分的权重,捕获动作之间的细微差别,提 高 对 相 似 动作的 识 别 率,网 络 结 构 如 图所示。图注意力机制结构计算机工程与设计 年图改进的 网络结构 具体实现如下:将特征映射重新表示为,其中,和表示特征图的高和宽。使用定义注意力子模块,见式()()()()()式中:、和是卷积核为的二维卷积,如图()所示,式()中忽略了和之间的重构运算。的输入是维数为矩阵,的输出是大小的矩阵。再

12、将重塑为作为的输入。采用的注意力子模块使用和减少输入通道的数量。对于和,模块可以通过乘法生成矩阵()()来学习任意两点之间的相互关系。使用平均函数得到所有其它点的加权平均值,沿矩阵列计算()()()在得到注意力权重后通过操作恢复通道的数量,在图()中显示了注意力机制过程的整个网络结构。从公式中,可以看到改进的注意力子模块和 模块之间存在着显著的差异。改进的注意力子模块只通过线性运算,而 模块依赖于二次变换。通常,二次变换可以学习更强的表示,然而,由于额外的矩阵乘法,它需要昂贵的计算。但是,改进的注意力子模块可以通过线性变换简化过程,也可以通过考虑每个位置来生成相似点。通过对比架构,可以很容易地

13、发现,改进的注意力子模块的特点是结构更简单,实现更快,计算效率更高,卷积更少,如上所述。改进的注意力子模块只需要个 卷积,而 模块需要个 卷积操作。实验结果及分析 实验参数实验的硬件配置为:显卡,内存,系统配置为:操作系统,框架为:开源框架。数据集采用 。数据集包含了 类动作,共 个视频,视频的分辨率为 。相似动作数据集采用 ,包含弯腰、跌倒、躺、坐、蹲和行走等几种相似动作,如图 所示,每种动作有 个视频,共 个视频,视频帧大小为 ,在 训练 过 程 中,训练 集 和测试 集的划 分 比 例为。图 动作类别本文采用迁移学习的方法,将 数据集在 和 网络上预训练得到的参数权重,作为本文网络的初始

14、权重,然后用上述两种数据集对本文提出的网络进行微调。再将 数据集上的预训练模型迁移到 数据集上验证本文方法的有效性。训练网络时,将视频分为段,采用随机梯度下降法(,)来学习网 络 模 型 的 参数,批量大小设置为,动量依照经验将其设置为 ,权重衰 减 因 子 被 设 置 为 。初 始 的 学 习 率 被 设 置 为 ,对空间流网络,迭代 次,每训练 次学习率将下降为原来的,对时间流网络,迭代 次,在训练到 次和 次时分别下降为原来的。在测试时,使用 的参数来评估本文提出的网络结构模型,采用固定数量的 图像帧和光流堆栈帧,在 数据集中随机采样了 帧,而在 数据集中,为了提高视频处理速度仅随机采样

15、了帧,它们之间的时间间隔是相等的,最后利用加权平均的方法来融合两个流得到最终分类的结果。第 卷第期姜海燕,韩军:基于改进时空异构双流网络的行为识别 实验结果及分析实验主 要 包 含 部 分:探 究 时 空 异 构 双 流 网 络()与同质双流网络()之间的性能对比;探究深度特征融合()对空间流网络性能的影响;探究改进的注意力机制()对时间流网络性能的影响;验证本文方法对近似动作的识别效果。表表中的数据均取自同一实验环境下的结果。表 ()数据集上识别率对比 表 数据集上识别率对比 弯腰跌倒躺坐蹲行走 表 数据集上最佳效果的对比 ,(),()在 数据集上进行的实验是通过遵循标准的评估方案来评估提出

16、的改进的异构双流网络。表中列出了 和本文算法的识别率对比,网络中空间流网络和时间 流 网 络 都 采 用 了 网 络。从 表 中 的 数据可得:()在空间流网络中,网络相比 网络性能更佳,并且与两流采用相似网络结构的 相比,的表现更好,在 数据集上识别率提高了 ;()在空间流网络中加入深度特征融合()后识别率相比未加入深度特征融合()的识别率更高,在 数据集上识别率提高了 ;()在时间流网络中加入改进的注意力机制()相比未加入 的单流()识别率更高,虽然在两流融合后 数据集识别率没有明显提升,但与加入深度特征融合()的空间流网络相融合后识别率更高,在 数据集上识别率提高了 。为了验证提出的网络结构对近似动作的识别效果,在 数据集上进行了实验对比,实验结果见表,从表中的数据可得,除“蹲”这一行为动作的识别率降低以外,其它的动作识别率都得到了相应的提升,进一步分析“蹲”行为实验数据可知,在进行测试时,的视频识别正确,的视频被识别成了弯腰,的视频被识别成了坐,如图左图(从识别错误的视频中截取的视频帧)被识别为坐(右图为坐的视频的视频帧)。从实验数据中可以看出,模型对于此类的相似动作识别率不够

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2