1、PRINTING AND DIGITAL MEDIA TECHNOLOGY STUDY Tol.223 No.2 2023.04印刷与数字媒体技术研究 2023年第2期(总第223期)RESEARCH PAPERS研究论文基于偏好学习的视频图像单目标跟踪算法研究李其京1,邹 阳2,段 芬1,叶卉荣1,王 静1,舒 忠1,2*(1.荆楚理工学院 电子信息工程学院,荆门 448000;2.荆门掌控传媒有限公司,荆门 448000)摘要 针对视频图像连续拍摄中不利的环境因素造成图像目标跟踪丢失的现象,本研究提出了一种基于SDAE模型和偏好学习模型结合的视频图像单目标跟踪算法。在SDAE模型中,采用卷
2、积神经网络模型的处理规则,并对SDAE堆栈式去噪自编码器的内部排列结构进行了调整;构建的偏好学习模型,将目标跟踪问题转换为目标图像块中重叠部分的区域大小排序问题,完成了排序函数、样本之间的偏好关系、跟踪约束条件和支持向量机二分类器的设计。本研究算法与实验选取的四种目标跟踪算法相比的结果表明,本研究算法在跟踪目标成功率、目标跟踪精度和系统运行时间方面具有一定优势,目标跟踪成功率和目标跟踪精度均为89%左右。关键字 图像目标跟踪;SDAE模型;偏好学习模型;支持向量机;跟踪目标更新中图分类号 TP391.41;TP183;TS801.8文献标识码 A文章编号 2097-2474(2023)02-5
3、7-08DOI 10.19370/10-1886/ts.2023.02.007Study on Video Image Single Target Tracking Algorithm Based on Preference LearningLI Qi-jing1,ZOU Yang2,DUAN Fen1,YE Hui-rong1,WANG Jing1,SHU Zhong1,2*(1.Electronic Information Engineering,Jingchu University of Technology,Jingmen 448000,China;2.Jingmen Control
4、Media Co.Ltd,Jingmen 448000,China)Abstract For the phenomenon of image target tracking loss caused by adverse environmental factors in the continuous shooting of video images,a single target tracking algorithm for video images based on the combination of SDAE model and preference learning model was
5、peoposed in this study.In SDAE model,the processing rules of convolutional neural network model were adopted,and the internal arrangement structure of SDAE stack de-noising self-coder was adjusted.The constructed preference learning model transforms the target tracking problem into the region size s
6、orting problem of the overlapping part of the target image block,and completed the design of the sorting function,the preference relationship between samples,the tracking constraints and the support vector machine classifier.Compared with the four target tracking algorithms selected in the experimen
7、t,the results showed that this 收稿日期:2022-08-10 修回日期:2022-11-17 *为通讯作者项目来源:荆楚理工学院校级科研项目(No.YB201807)本文引用格式:李其京,邹阳,段芬,等.基于偏好学习的视频图像单目标跟踪算法研究J.印刷与数字媒体技术研究,2023,(2):57-64.2023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 572023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 572023/3/27 16:05:402023/3/27 16:05:4058印刷与数字媒体技术研究20
8、23年第2期(总第223期)0 引言进入21世纪后,图像目标跟踪技术研究正式起步,从2010年开始,该技术的研究与应用迅速发展,出现众多优秀跟踪算法1-6。该技术应用的关键难点在于设计一个优良、运行稳定可靠的目标跟踪器,跟踪器需要考虑真实的环境条件、面临的复杂干扰因素影响,具有能够准确对动态图像目标实现跟踪的能力。动态图像跟踪算法的实现需要完成对跟踪目标的表示及目标图像特征的提取7-8、对跟踪目标的检测和跟踪算法9-11的实时更新三个步骤。Jia等1和把萍等12通过对结构信息采用局部稀疏特征描述,重点针对跟踪目标图像块的空间坐标信息和局部特征信息进行池化,应用目标图像块的空间学习模型和局部稀疏
9、特征,并引入更新机制,有效防止了跟踪目标丢失。Hare等2设计的目标跟踪算法,以跟踪目标图像块的矩阵空间结构为切入点,通过定义输出目标图像块矩阵空间构建输入样本的训练模型,对输出结果采用支持向量机分类器进行特征分类,用以匹配最佳的跟踪目标。Zhong等13在设计的目标跟踪算法中引入图像局部稀疏特征编码策略,构建跟踪目标的变化信息判定机制,更新策略不仅考虑了实时的更新结果,还将初始输入的跟踪目标图像块列为更新策略制定的参考依据。傅杰等14在设计的目标跟踪算法中,以Bayes理论为基础,使用MC蒙特卡洛方法构建跟踪目标图像块特征分类模块,通过平行采样找出发生状态变化的全部跟踪目标。陈渝等15以提取
10、的跟踪目标图像块特征分类结果是否定义标签为前提,设计了基于带标签和不带标签的样本特征二分类器,以提高跟踪目标图像块的识别性能。通常在拍摄视频图像时容易受到拍摄环境和视频中其他目标的影响,即使一些较好的目标跟踪算法也难免出现跟踪目标丢失的情况。针对视频动态图像中单目标跟踪定位不准的问题,本研究设计了一种视频图像单目标跟踪算法。首先,在SDAE模型中使用卷积神经网络(CNN)的特征提取策略获取跟踪目标的图像特征,然后,依据跟踪目标图像块中信息内容的区别,制定目标跟踪的排序规则,使用偏好学习模型找出跟踪目标中被加以重点关注的目标。该方法在跟踪目标成功率、目标跟踪精度和系统运行时间方面具有一定优势。1
11、 本研究技术路线本研究的主要技术路线如图1所示。视频图像单目标跟踪存在问题调研及当前应用技术分析跟踪目标图像块的特征提取设计SDAE堆栈式去噪编码器,关键点是编码器的激活函数和解码器损失函数偏好学习模型构建设计偏好函数,关键点是定义正样本和负样本的偏好关系、确定重点关注对象和偏好参数跟踪目标状态更新应用支持向量机设计二分类器,关键点是设计分类误差函数跟踪目标图像特征提取模型跟踪目标分类识别模型前期准备关键技术编码器的激活函数和解码器损失函数的参数定义是否准确、清晰;图像块特征提取是否准确正样本和负样本的定义是否清晰;偏好参数对排序及分类影响程度;重点关注对象是否准确找出二分类器的分类结果是否准
12、确;偏好参数是否发挥作用;分类权重的分配研究目标图像特征提取目标分类识别动态自主更新图1 本研究技术路线图Fig.1 Technical route of this study2 本研究算法实现2.1 跟踪目标图像块的特征提取由于应用基于深度机器学习字典和深度神经网algorithm has certain advantages in the tracking the target success rate,the target tracking accuracy,and the system running time,and the target success rate and targe
13、t tracking accuracy were about 89%.Key words Image Target tracking;SDAE model;Preference learning model;Support vector machine;Tracking target update2023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 582023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 582023/3/27 16:05:402023/3/27 16:05:4059研究论文李其京等:基于偏好学习的视频图像单目标跟踪算法研究络模
14、型的多层框架结构,算法具有一定的动态获取图像特征的能力,更能确保精准的目标定位,防止出现跟踪目标丢失的现象。深度机器学习模型主要包括:DBN深度信念网络、DBM深度玻尔兹曼机、CNN深度卷积神经网络、SDAE堆栈式去噪自编码器等。本研究算法的主要工作之一是设计一个SDAE堆栈式去噪自编码器。SDAE堆栈式去噪自编码器包括跟踪目标图像块特征编码器和特征解码器两个模块,两个模块都由五个网络层搭建,形成完整结构的网络层。在SDAE模型的每一层中,组成的基本单元为DAE去噪自编码器和解码器。编码器负责提取跟踪目标图像块的特征,解码器负责将提取的特征还原为输入的跟踪目标图像块。编码器的核心处理单元是一个
15、非线性基本处理单元的激活函数,使用了卷积神经网络模型中的图像特征提取和处理策略,每个编码器单元中的激活函数为yk=f(Wxk+b),可以实现对跟踪目标图像块的特征提取,并对特征进行编码。特征编码通过向量矩阵进行描述,激活函数可以使用Sigmoid激活函数,标记为Sigmoid()。编码器激活函数的作用就是将图像样本xk转换为图像样本的特征yk,xk为输入模型中进行学习训练的第k个跟踪目标图像块,为主要的处理控制参数,用于调整变换矩阵权重值W和偏值b两个重要参数,两个参数可以通过输入初始跟踪目标图像块在SDAE模型中进行学习训练获取。本研究的权重值W主要根据SDAE模型总层数l中的基本单元总个数
16、进行分配。激活函数在编码时的处理结果为g(yk),为的编码更新值,是编码器与解码器实现关联的关键参数。在解码时,W为解码器权重值,b为偏值,其激活函数为Zk=g(Wyk+b)。解码器的作用主要是对获取的跟踪目标图像块特征进行还原,还原为与xk匹配的zk,zk为根据yk的特征值还原的图像块样本,zk和xk的差值越小越好,但不可能完全相同。为了确保zk和xk的差值越小,就必须为编、解码器设计一个最小化误差公式,称为损失函数。损失函数构建同样使用了卷积神经网络模型中的设计策略,编、解码器损失函数如式(1)。(1)式(1)中,N为输入SDAE模型进行学习训练的跟踪目标图像块总个数,损失函数计算的主要参数是W、W、b和b四个SDAE模型中的训练参数,xk-zk表示输入的原始跟踪目标图像块和重构的目标图像块之间的误差值,表示基于L2的范数运算,参数 为拉格朗日正则化乘子,主要作用是利用范数正则化实现对图像样本特征进行稀疏表示,又被称为重建残差控制因子。因此,式(1)又称为重建残差函数。在以上基本单元的设计基础上,形成了DAE模型的总体架构。在DAE模型中,设置第一层中的编码器组成单元为2560个,