1、 电子稳像技术 方 明 任正玮 徐 晶 陈纯毅 著 未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 电子稳像技术/方明等著.北京:电子工业出版社,2018.8 ISBN 978-7-121-34950-8.电 .方 .无线电电子学 .TN014 中国版本图书馆 CIP 数据核字(2018)第 199062 号 策划编辑:刘小琳 责任编辑:刘小琳 特约编辑:白天明 李 丹 印 刷:装 订:出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编 100036 开 本:7101 000 1/16 印张:8.75 字数:152 千字 版
2、 次:2018 年 8 月第 1 版 印 次:2018 年 8 月第 1 次印刷 定 价:39.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。本书咨询联系方式:(010)88254538,。作者长期在电子稳像技术领域工作,本书是作者对这些年研究成果的总结,作者力求将电子稳像的产生、发展和应用过程完整地呈现给读者。稳像的根本目的是保证在利用光学仪器拍摄目标时,尽管平台存在摇动或振动,但拍摄的图像质量不受损害,没有对人眼的观察或进一步的计
3、算分析产生不良影响。从宏观上讲,稳像的过程分为两大类,即帧内稳像和帧间稳像。帧内稳像的应用大家都非常熟悉,典型的应用是在拍摄照片时,可确保照片不会因为手的抖动而模糊。帧内稳像已经在大多数消费级相机中集成应用,技术成熟,不是本书的关注重点。关于帧间稳像,大家可以试想一下,当使用肩扛摄像机拍摄某一场景时,仅通过图像的晃动程度即可轻易判断当时的情况是否紧急。帧间晃动和帧内晃动不同,帧间晃动是由于帧间出现特殊振动导致的,称为帧间稳像。帧间稳像是本书关注的重点,目前帧间稳像技术还不够成熟,很难在民用消费级相机中应用,关键技术仍然处于攻关阶段。本书分为上、中、下三篇。上篇为电子稳像基本理论,从运动的产生开
4、始,讨论稳像的目的、稳像技术的发展历程和应用领域,以及基本的稳像模型和构成。中篇讨论了基于 2D 模型的稳像方法,其中着重讨论全局运动估计及 2D 稳像模型。下篇讨论了基于 3D 模型的稳像方法,并提出了基于球面模型的稳像算法。3 个篇章,由浅入深,贯穿了整个电子稳像技术的发展历程。本书在撰写过程中,得到研究生司书哲、田颖、郭莎莎、付飞蚺,以及机器视觉研究室多位同学的全力协助,他们认真整理了部分章节的研究成果,并做了全书的校对工作,感谢他们的努力及对本书所做的贡献。本书注重内容的完备性、系统性和创新性,可作为高校计算机科学专业、PREFACE IV 电子稳像技术自动化专业师生研究相关内容的理论
5、参考书,也可以作为该领域工程应用的参考用书。尽管针对本书的撰写,我们投入了大量的人力和精力,但由于水平有限,书中一定存在各种不足,敬请谅解。作 者 2018 年 5 月于长春 上篇 电子稳像基本理论 第 1 章 绪论 3 1.1 运动4 1.2 抖动5 第 2 章 电子稳像概述7 2.1 电子稳像8 2.1.1 帧内稳像8 2.1.2 帧间稳像9 2.2 发展历程9 2.2.1 基于机械陀螺的稳像技术9 2.2.2 基于光学的稳像技术9 2.2.3 基于图像的稳像技术10 2.2.4 基于位姿传感器的稳像技术10 2.3 应用领域10 2.3.1 民用领域应用10 2.3.2 军事领域应用11
6、 第 3 章 电子稳像模型及构成 13 3.1 传统电子稳像模型14 3.1.1 2D 稳像模型14 CONTEN VI 电子稳像技术3.1.2 2.5D 稳像模型16 3.1.3 3D 稳像模型16 3.2 稳像模型基本模块构成16 3.2.1 全局运动估计16 3.2.2 运动平滑17 3.2.3 运动补偿17 第 4 章 稳像效果评价 19 4.1 主观评价20 4.2 客观评价20 4.2.1 MSE 评价方法20 4.2.2 PSNR 评价方法21 4.2.3 ITF 评价方法21 4.2.4 差分图评价方法21 4.2.5 DITF 评价方法22 4.2.6 标准差算法22 4.2
7、.7 随机性检验方法23 4.3 讨论23 中篇 2D 模型稳像方法 第 5 章 全局运动估计 27 5.1 块匹配算法28 5.2 灰度投影法29 5.3 光流法31 5.4 特征法33 5.4.1 特征点匹配33 5.4.2 运动估计40 5.5 运动估计过程优化41 VII 目录5.6 基于多传感器融合的运动估计方法讨论48 5.6.1 时间同步48 5.6.2 基于四元数的标定方法52 5.6.3 基于神经网络的复合运动估计方法54 第 6 章 运动平滑及补偿 61 6.1 均值滤波62 6.2 高斯低通滤波63 6.2.1 高斯滤波简介63 6.2.2 高斯滤波性质64 6.3 卡尔
8、曼滤波65 6.4 变分模态分解方法66 6.5 运动补偿方法69 下篇 3D 模型稳像方法 第 7 章 基于 3D 重构的稳像方法 73 7.1 稳像模型74 7.2 相机标定74 7.3 运动估计82 7.4 运动平滑86 7.4.1 基于迭代扩展卡尔曼的运动平滑86 7.4.2 最小二乘估计优化算法89 7.5 运动补偿89 第 8 章 基于球面模型的稳像方法 93 8.1 球面稳像模型94 8.1.1 球面模型基本原理94 8.1.2 球面投影方法95 8.1.3 球面展开方法98 VIII 电子稳像技术8.2 球面运动估计99 8.3 球面运动轨迹平滑106 8.4 球面运动补偿10
9、9 第 9 章 球面模型在全景相机上的扩展111 9.1 全景相机标定112 9.2 多相机图像拼接119 9.3 主运动估计及补偿120 9.4 全景稳像并行化策略121 参考文献 125 上 篇 电子稳像基本理论 第 1 章 绪论 第 2 章 电子稳像概述 第 3 章 电子稳像模型及构成 第 4 章 稳像效果评价 第 1 章 绪 论 1.1 运动 1.2 抖动 004 电子稳像技术1.1 运动 哲学里有句知名的话:运动是绝对的,静止是相对的。宇宙中的任何物体都不可能绝对静止,一定有运动存在。我们常说的一个物体是在运动状态还是在静止状态,通常都是相对于某一参照物而言的,这就是所谓运动的相对性
10、。如图 1.1 所示,观察者和物体 A 都搭载在运动的车上,并以车的运动速度carv与车同步运动;同时,物体 B 以运动速度objBv运动。显然,在观察者看来,物体 A是静止的;物体 B 有时运动,有时静止。那么,物体 B 什么时候在运动呢?显然是车的运动速度和物体 B 的运动速度不同时。物体 B 什么时候是静止的呢?显然是车的运动速度和物体 B 的运动速度完全相同时。图 1.1 相对运动产生示意 如果将观察者想象成相机,那么不难理解,从相机的视角来看,外界的物体是在运动还是在静止,完全是相对于相机自身而言的,即相对速度的差异情况。当然也可以理解为单位时间内相机和目标物体所处的相对位置的变化情
11、况。这种变化,从相机的成像上来看,就是捕捉到一种运动。显然,运动信息是通过相互之间有时间间隔的多帧图像来表达的。也就是说,在多帧图像中,目标 005 第 1 章 绪论物体的位置在图像中发生像素位置的相对变化。正是通过这种变化,我们才能理解世界上的运动。当然,这种变化由于涉及相机模型和从 3D 空间到 2D 空间的投影问题,以及由此带来的开口问题,有时这会使通过从图像上观测到的运动,分析实际 3D 空间的真实运动变得非常困难。1.2 抖动 广义上讲,抖动是指在某一特定时刻,信号在短暂时间间隔内与理想位置的偏离。偏离程度越大,抖动越严重;反之,抖动不明显。图像抖动可以定义为:由于拍摄载体的运动等情
12、况导致的视频图像中的待观察目标在短期内和理想位置产生较高频率的偏离。尽管这种现象,在单位时间内观测,是一种运动,但不是我们期望的,称之为抖动。显然,按照上述定义,在相机拍摄物体的时间段内将有两种运动发生,一种是相机为了追踪目标拍摄而主动给予的扫描运动,另一种是由于载体的振动等产生的相对的、高频的晃动。这两种运动没有明显的界线,可通过相机成像后无痕地叠加在一起。如图1.2 所示,将这两种运动抽象成独立的信号进行分析。为方便描述,将图 1.2(a)代表的相机扫描路径,抽象成一个时变信号;图 1.2(b)是抖动信号;图 1.2(c)是以上两种信号的合成。前两种信号是未知的、不可观测的,第3 种信号可
13、以通过分析图像的光流反演出相机的运动,是可观测的。但是,第 3 种信号是前两种未知信号的叠加结果。正是这种叠加给我们带来了极大的困扰。这相当于在信号源输入未知信号的情况下,一直努力分离这两种信号;或者说在保持一种信号的前提下,抑制另一种信号。当然,如果从工程技术角度来看,可以不考虑信号的种类,直接通过卡尔曼滤波等算法对曲线进行平滑处理,进而达到抑制抖动的目的。但是,从科学角度来看,我们不得不考虑,这个现象实际上是多种信号的叠加,并且信号可能还不止两种。在这种条件下,我们是否可以仍然利用信号的盲源分解等算法 006 电子稳像技术解决,将是我们要长期探讨的一个有趣而富有挑战的课题。图 1.2 信号
14、的叠加效应 第 2 章 电子稳像概述 2.1 电子稳像 2.2 发展历程 2.3 应用领域 008 电子稳像技术2.1 电子稳像 2.1.1 帧内稳像 在介绍帧内稳像之前,我们首先了解一下帧内模糊。图 2.1 描述了摄像机在拍摄目标过程中,是如何产生帧内模糊现象的。为了便于说明,摄像机的成像平面用 CCD 表示,每个方格代表一个像素。在观察目标时,假定 t 时刻目标点 P 在 CCD 平面上的成像为 p。此时我们考虑目标点 P 与 CCD 平面之间的相对运动和 CCD 曝光时间之间的关系。如果在 CCD 曝光时间内,二者之间没有发生相对运动,或发生的相对运动较小,如由 P 点移动到较近的 P1
15、点,P 点和 P1点在 CCD 上的成像 p和1p仍然在同一个像素格子内。观察发现,图像是清晰的。反之,当在 CCD 曝光时间内,P 点的运动速度较快,移动到了 P2点,此时 P 点和 P2点的成像 p和2p将分布在两个格子中,从图像上看,点的形状被拉长了,这就产生了成像模糊,称为帧内模糊。图 2.1 帧内模糊的产生过程 帧内模糊是最常见的成像不良现象,常表现在拍摄照片时图像局部或整体出现某一个方向的模糊。当场景内有高速运动的物体时,图像中运动物体的区域间 009 第 2 章 电子稳像概述产生严重的模糊现象。当整个场景相对于相机高速运动时,将产生整个图像的模糊。帧内模糊问题在多数的家用相机中已
16、经通过光学补偿等方式得到抑制。2.1.2 帧间稳像 同样,在介绍帧间稳像之前,还需要解释何为帧间模糊。如果说帧内模糊是由于在每帧的成像时间内,目标和相机之间发生的相对运动过大导致的;那么帧间模糊是指每帧的图像都是清晰的,但是多帧图像之间会产生高频抖动。人眼存在 0.10.4s 的视觉暂留,因此高频运动目标在人眼中的成像将表现出模糊不清的现象,严重的还会使人产生眩晕的感觉。抑制这种模糊现象的过程称为帧间稳像。帧间模糊给视频拍摄带来极大困扰。在消费级的相机中很少有产品具有抑制帧间模糊的功能。帧间稳像是本书讨论的重点,以后章节的内容,我们也只讨论帧间稳像,所用的术语也只针对帧间稳像。2.2 发展历程 2.2.1 基于机械陀螺的稳像技术 基于机械陀螺的稳像技术一般采用陀螺传感器感知摄像系统平台的振动,通过伺服系统抑制这种振动实现视频稳像。通常也通过惯性转台,利用平台的惯性实现抑制高频抖动的目的。该类方法一般很有效,但其缺点是体积庞大,需要额外的伺服机构,在小型摄像系统中很难应用。2.2.2 基于光学的稳像技术 基于光学的稳像技术是利用光学系统的部分元件补偿平台的振动来达到使 010 电子稳像技