1、 视频中人的动作 分析与识别 吴心筱 刘翠微 贾云得 著 内 容 简 介 本书围绕视频中人的动作分析与识别问题进行探讨。首先,论述了动作分析的基本概念、发展历程及应用,介绍了动作分析的相关基础知识、动作分析的经典方法和技术,以及动作分析的常用数据库。然后,从动作分析中的不同研究方向出发,介绍了三维人体姿态估计的多种经典方法、动作识别与定位的各类经典方法。最后,面向多视角动作识别问题,介绍了视角无关动作识别、跨视角动作识别的经典方法。本书可供从事计算机视觉、模式分类、人工智能以及相关领域研究和应用的技术研发人员参考,也可作为相关专业的高年级本科生和研究生的教材。版权专有 侵权必究 图书在版编目(
2、CIP)数据 视频中人的动作分析与识别/吴心筱,刘翠微,贾云得著.北京:北京理工大学出版社,2019.9 ISBN 978-7-5682-7604-7.视.吴 刘 贾 .图象识别-研究 .TP391.413 中国版本图书馆 CIP 数据核字(2019)第 203284 号 出 版 /北京理工大学出版社有限责任公司 社 址 /北京市海淀区中关村南大街 5 号 邮 编 /100081 电 话 /(010)68914775(总编室)(010)82562903(教材售后服务热线)(010)68948351(其他图书服务热线)网 址 /http:/ 经 销 /全国各地新华书店 印 刷 /固安县铭成印刷有
3、限公司 开 本 /710 毫米1000 毫米 1/16 印 张 /20 彩 插 /5 责任编辑 /梁铜华 字 数 /359 千字 文案编辑 /曾 仙 版 次 /2019 年 9 月第 1 版 2019 年 9 月第 1 次印刷 责任校对 /周瑞红 定 价 /68.00 元 责任印制 /李志强 图书出现印装质量问题,请拨打售后服务热线,本社负责调换 目 录 001 前 言 人类感知外部世界主要通过视觉、触觉、听觉和嗅觉等感觉器官,其中约80%的信息是由视觉获取的。赋予计算机以人类视觉功能,使之能够自动识别、分析和感知周围环境中人和事物的活动,是下一代智能计算机研究的重要组成部分。因此,视频中人的
4、动作分析与识别已逐渐成为计算机视觉领域一个备受关注的研究方向,它将使计算机不仅能够观察外部世界,还能自动分析和识别场景中正在进行的人类活动,并做出相应的决策。拥有视觉功能的计算机具有更强的自主适应环境的能力,能够辅助人类完成许多重要的任务,如智能视频检索、智能视频监控、高级人机交互、智能环境构建等。这对于推动社会进步和生产力发展、保障公共和个人安全、丰富并便捷人们的日常生活都具有重要的实际意义。然而,研究视频中人的动作分析与识别面临着很大的困难和挑战,这主要是由于场景纷繁复杂、拍摄条件各有不同(人的运动风格迥异多变、光照变化、摄像机运动、视角变换等)、人体关节的非刚性和自遮挡性,以及动作语义的
5、多义性和不确定性。研究难点和问题解决思路的多样性,导致动作分析的方法门类众多,研究成果分散,不利于初学者在短时间内系统地掌握这方面的理论、方法和技术。因此,本书对动作分析与识别的方法进行归纳、总结,尽量挑选具有代表性的经典方法和具有实用性的研究成果来进行介绍,以求兼顾内容的基础性和实用性。本书融入了笔者多年来从事人的动作分析研究的经验和心得,介绍了笔者在姿态估计、动作识别与动作定位研究过程中的多项研究成果。本书分为 11 章。第 1 章为绪论,阐述动作分析的基本概念、发展历程及应用。第 2 章简单介绍动作分析的相关基础知识。第 3 章分别从动作表示、姿态估计、动作识别、动作定位这几方面介绍动作
6、分析与识别的典型方法和技术,视频中人的动作分析与识别 002 Human Action Analysis and Recognition from Videos 并介绍了动作识别与姿态估计的常用数据库。第 4 章针对三维人体姿态估计中的姿态参数高维性问题,介绍一类利用非线性流形学习的三维人体姿态估计方法,以及一种建模姿态时序约束的、高效的非线性流形学习算法。第 5 章针对单目图像三维人体姿态估计的多义性问题,介绍多种经典方法,以及利用相关语义知识反馈的姿态估计方法。第 68 章分别围绕如何学习鲁棒的、具有判别信息的特征表示,如何融合多种上下文信息,如何挖掘动作的内在时序结构,介绍各类典型方法。
7、第 6 章具体介绍采用增量判别相关分析的动作识别方法,第 7 章具体介绍融合多视觉对象的动作识别方法,第 8 章介绍联合原子动作建模的动作识别方法。第 9 章阐述视频中人的动作定位的相关方法,以及结合知识迁移的弱监督动作的定位方法。第 10、11 章面向多视角动作识别问题,分别介绍视角无关动作识别、跨视角动作识别的经典方法,以及基于结构化学习的视角无关动作识别方法和基于异构判别分析的跨视角动作识别方法。本书内容包括研究生刘婧和隋宛辰所做的工作。研究生王瑞琦、隋宛辰、刘婧、孙宇超、宋浩、侯静怡、朱冰、李天宇、余非梧参与了第 1、2、3、7、11 章内容的撰写。在此感谢学生们的辛勤劳动和付出。由于
8、笔者水平有限,书中难免存在不足和错误之处,恳请同行专家和广大读者批评指正。欢迎读者来信勘误和交流。本书可供从事计算机视觉、模式分类、人工智能以及相关领域研究和应用的技术研发人员参考,也可作为相关专业的高年级本科生和研究生的教材。感谢北京理工大学研究生院对本书出版的资助。感谢北京理工大学出版社对本书的出版给予的支持和帮助。感谢李秀梅编辑的辛勤劳动。本书的相关研究得到了国家自然科学基金重大研究计划培育项目(60905006)、国家自然科学基金面上项目(61673062)、国家自然科学基金青年科学基金项目(61203274、61602320)、国家高技术研究发展计划(“863”计划)资助课题(200
9、9AA01Z323)、高等学校博士学科点专项科研基金(20121101120029)等项目的资助,本书的出版得到了北京理工大学优秀博士学位论文出版项目基金的资助,在此表示衷心感谢。最后,特别感谢笔者的家人在笔者从事研究和撰写本书的过程中给予的关心和支持。吴心筱 刘翠微 贾云得 目 录 001 目 录 第 1 章 绪论 001 1.1 动作分析的基本概念 002 1.1.1 特征提取 004 1.1.2 估计器 005 1.1.3 分类器 005 1.1.4 区域搜索 005 1.2 动作分析的发展历程 006 1.3 动作分析的应用 015 参考文献 017 第 2 章 动作分析基础知识 02
10、7 2.1 局部特征点 028 2.1.1 特征点检测 028 2.1.2 特征点跟踪 030 2.1.3 特征描述子 031 2.1.4 词袋模型 033 2.2 运动检测 034 2.2.1 帧间差分 035 2.2.2 背景减除 036 2.2.3 光流场 038 2.3 成分分析与判别函数 040 视频中人的动作分析与识别 002 Human Action Analysis and Recognition from Videos 2.3.1 主成分分析 040 2.3.2 线性判别分析 042 2.3.3 多重判别分析 043 2.4 最大似然估计 043 2.4.1 基本原理 044
11、 2.4.2 多元正态分布下的参数估计 045 2.5 最近邻分类 046 2.5.1 基本原理 046 2.5.2 距离度量函数 046 2.5.3 近邻个数 047 2.5.4 分类规则 047 2.6 支持向量机 047 2.6.1 最优分类平面 047 2.6.2 线性不可分情况 050 2.6.3 非线性支持向量机 050 2.7 隐马尔可夫模型 052 2.7.1 隐马尔可夫模型的定义 052 2.7.2 隐马尔可夫模型的基本假设 053 2.7.3 隐马尔可夫模型的基本问题 053 2.8 神经网络 054 2.8.1 神经元模型 054 2.8.2 神经网络模型 055 2.8
12、.3 反向传播算法 056 2.9 聚类 058 2.9.1 基本原理 058 2.9.2 K-means 聚类 058 2.9.3 层次聚类 059 参考文献 060 第 3 章 动作分析经典方法 065 3.1 动作表示 066 3.1.1 时空特征 066 3.1.2 语义特征 071 3.1.3 深度特征 071 目 录 003 3.2 姿态估计 077 3.2.1 自底向上基于表观的估计方法 078 3.2.2 自顶向下基于模型的估计方法 080 3.2.3 自底向上和自顶向下相结合的估计方法 083 3.3 动作识别 084 3.3.1 单层动作识别方法 084 3.3.2 层级动
13、作识别方法 086 3.4 动作定位 089 3.4.1 时域动作定位 089 3.4.2 时空动作定位 091 3.5 常用数据库 092 参考文献 108 第 4 章 学习非线性流形空间的人体姿态估计 133 4.1 引言 134 4.2 流形学习方法 135 4.3 人体运动的非线性流形空间 136 4.4 流形空间到原始姿态空间映射 138 4.4.1 映射函数建模 139 4.4.2 流形空间概率分布建模 139 4.4.3 映射函数参数学习 140 4.5 实验 140 4.5.1 三维人手姿态估计 141 4.5.2 三维人体姿态估计 144 4.6 小结 147 参考文献 14
14、7 第 5 章 利用语义知识反馈的人体姿态估计 149 5.1 引言 150 5.2 姿态估计多义性 151 5.3 语义知识建模 152 5.3.1 局部语义知识 152 5.3.2 全局语义知识 154 5.4 语义知识反馈 156 视频中人的动作分析与识别 004 Human Action Analysis and Recognition from Videos 5.4.1 局部语义知识反馈 156 5.4.2 全局语义知识反馈 156 5.5 语义知识反馈用于姿态估计 157 5.5.1 基于 Hausdorff 距离的动作识别 159 5.5.2 基于局部语义反馈和全局语义反馈的姿态
15、估计 160 5.6 实验 161 5.6.1 实验数据 161 5.6.2 结果分析与比较 162 5.7 小结 165 参考文献 165 第 6 章 采用增量判别相关分析的动作识别 167 6.1 引言 168 6.2 判别典型相关分析 169 6.3 增量判别典型相关分析 170 6.3.1 更新总典型相关矩阵 171 6.3.2 更新类间典型相关矩阵 172 6.3.3 更新判别矩阵 172 6.4 半监督增量判别典型相关分析 173 6.5 实验 174 6.5.1 Weizmann 数据库实验 174 6.5.2 KTH 数据库实验 177 6.5.3 鲁棒性验证 180 6.6
16、小结 182 参考文献 182 第 7 章 融合多视觉对象的动作识别 185 7.1 引言 186 7.2 动作上下文信息 187 7.3 视觉对象特征表示 188 7.3.1 时空兴趣点特征 188 7.3.2 类相关语义特征 193 7.4 视觉对象关联建模 194 7.4.1 含有隐变量的结构支持向量机 195 目 录 005 7.4.2 关联模型构建 196 7.4.3 关联模型训练 198 7.4.4 关联模型预测 199 7.5 实验 199 7.5.1 实验数据 199 7.5.2 实验结果及分析 200 7.6 小结 206 参考文献 206 第 8 章 联合原子动作建模的动作识别 211 8.1 引言 212 8.2 原子动作 213 8.3 联合原子动作建模 215 8.3.1 联合模型构建 215 8.3.2 联合模型训练 217 8.3.3 联合模型预测 219 8.4 原子动作自动标注 219 8.5 实验 222 8.5.1 实验数据 222 8.5.2 动作识别结果分析 223 8.5.3 半监督学习方法评估 226 8.5.4 视频描述结果分析 227