1、收稿日期:2 0 2 2-1 1-1 6.基金项目:国家重点研发计划资助项目(2 0 2 1 Y F B 3 6 0 0 6 0 3);福建省自然科学基金资助项目(2 0 2 0 J 0 1 4 6 8);国家青年科学基金项目(6 2 1 0 1 1 3 2).*通信作者:林珊玲E-m a i l:s l l i n f z u.e d u.c n光电技术及应用D O I:1 0.1 6 8 1 8/j.i s s n 1 0 0 1-5 8 6 8.2 0 2 2 1 1 1 6 0 1基于Z y n q平台的图像目标检测系统王利翔1,林珊玲1,3*,林志贤1,2,3,郭太良2,3(1.福州
2、大学 先进制造学院,福建 泉州3 6 2 2 0 0;2.福州大学 物理与信息工程学院,福州3 5 0 1 1 6;3.中国福建光电信息科学与技术实验室,福州3 5 0 1 1 6)摘 要:针对图像目标检测任务中采用的深度学习网络复杂的计算和规模庞大的计算参数,导致基于A RM架构的嵌入式系统上,目标检测任务存在着高延时和处理速度慢的问题,文章提出并设计实现了一种新型完整嵌入式道路车辆检测方案。该方案在基于YO L O v 3-T i n y的特征提取网络中采用结构重参数化的方法提升模型检测精度,并通过V i t i s-A I在Z y n q嵌入式平台上部署D P U C Z D X 8 G
3、架构的加速核对卷积神经网络的并行加速,最后将改进的YO L O v 3-T i n y网络模型经过量化、编译,以动态链接库的方式部署。实验结果表明,在VO C 2 0 0 7上测试最终实现均值平均精度(MA P)为0.5 9 7,实时处理速度为2 7.7F P S,同时帧率功耗比为1.4 9,适合边缘计算设备的低功耗要求。关键词:目标检测;V i t i s-A I;量化;结构重参数化;Z y n q中图分类号:T P 3 9 4.1;TH 6 9 1.9 文章编号:1 0 0 1-5 8 6 8(2 0 2 3)0 1-0 1 4 7-0 6I m a g eT a r g e tD e t
4、 e c t i o nS y s t e mB a s e do nZ y n qP l a t f o r mWANGL i x i a n g1,L I NS h a n l i n g1,3,L I NZ h i x i a n1,2,3,GUOT a i l i a n g2,3(1.S c h o o l o fA d v a n c e dM a n u f a c t u r i n g,F u z h o uU n i v e r s i t y,Q u a n z h o u3 6 2 2 0 0,C H N;2.S c h o o l o fP h y s i c sa
5、n dI n f o r m a t i o nE n g i n e e r i n g,F u z h o uU n i v e r s i t y,F u z h o u3 5 0 1 1 6,C H N;3.C h i n aF u j i a nP h o t o e l e c t r i c I n f o r m a t i o nS c i e n c ea n dT e c h n o l o g yI n n o v a t i o nL a b o r a t o r y,F u z h o u3 5 0 1 1 6,C H N)A b s t r a c t:D u
6、et ot h ec o m p l e xc o m p u t a t i o no ft h ed e e pl e a r n i n gn e t w o r ka n dt h eh u g ec o m p u t a t i o n a lp a r a m e t e r su s e d i n t h e r o a dv e h i c l e t a r g e t d e t e c t i o n,t h ep r o b l e mo f h i g hd e l a ya n ds l o wp r o c e s s i n gs p e e de x i
7、s t s i nt h e t a r g e td e t e c t i o nt a s ko nt h ee m b e d d e ds y s t e mb a s e do nA RMa r c h i t e c t u r e.A i m i n ga tt h ea b o v ep r o b l e m s,ac o m p l e t ee m b e d d e dr o a dv e h i c l et a r g e td e t e c t i o ns o l u t i o nw a sd e s i g n e da n di m p l e m e
8、 n t e di nt h i sp a p e r.T h es t r u c t u r a l r e-p a r a m e t e r i z a t i o ni su s e di nt h eYO L O v 3-T i n y-b a s e df e a t u r ee x t r a c t i o nn e t w o r kt o i m p r o v et h em o d e ld e t e c t i o na c c u r a c y,a n dt h ep a r a l l e l a c c e l e r a t i o no f t h
9、ec o n v o l u t i o n a l n e u r a l n e t w o r kw a sd e p l o y e db yV i t i s-A Io nt h eZ y n qe m b e d d e dp l a t f o r m w i t ht h eD P U C Z D X 8 Ga r c h i t e c t u r ea c c e l e r a t i o nc o r e,a n df i n a l l yt h ei m p r o v e dYO L O v 3-T i n yn e t w o r km o d e lw a s
10、q u a n t i f i e d,c o m p i l e da n dd e p l o y e da sad y n a m i c a l l yl i n k e d l i b r a r y.T h ee x p e r i m e n t a l r e s u l t ss h o wt h a t t h eMA Po fVO C 2 0 0 7i s0.5 9 7,a n dt h er e a l-t i m ep r o c e s s i n gs p e e d i s2 7.7F P S.A t t h es a m et i m e,t h e f r
11、a m er a t ep o w e rc o n s u m p t i o nr a t i o i s1.4 9,w h i c h i ss u i t a b l e f o r t h e l o wp o w e rc o n s u m p t i o nr e q u i r e m e n t so f e d g ec o m p u t i n gd e v i c e s.K e yw o r d s:t a r g e t d e t e c t i o n;V i t i s-A I;q u a n t i f i c a t i o n;s t r u c t
12、 u r a l r e-p a r a m e t e r i z a t i o n;Z y n q741 半导体光电2 0 2 3年2月第4 4卷第1期王利翔 等:基于Z y n q平台的图像目标检测系统 0 引言随着物联网技术的发展,将深度学习算法部署在嵌入式边缘设备进行目标检测识别有着重要且深远的意义。这就需要嵌入式设备存储大量的数据和进行复杂的运算,这将会消耗大量的硬件资源和功耗,并且在传统A RM平台的嵌入式设备上部署深度学习算法进行目标检测任务通常有着较高的延时和功耗。因此实现低延时、低功耗的嵌入式边缘设备应用于图像的目标检测是十分重要的。目标检测是计算机视觉的基本任务之一,有
13、其重要的实际应用价值。传统的目标检测算法主要是通过手动提取特征,需要人工设计,复杂繁琐并且会出现漏检和误检等问题。然而,随着卷积神经网络(C NN)1的兴起,C NN已经替代传统算法成为目标检测任务的主流算法,并且在很多场景下的识别效率超过人类。C NN可以自动地从训练数据中学习提取特征,并且随着网络层数的增加,能提取到图像更深层次的特征,相比于传统算法有着更强大的特征学习能力。当前,业界部署卷积神经网络模型的加速方法主要有以下3种:1)使用基于单指令流多数据流或者多指令流多数据流的图像处理器(G P U)2进行模型的加速计算,但是存在高功耗和设备庞大等不足,限制了它在嵌入式系统中的应用,只适
14、用于云端大型计算平台或者服务器;2)使用专用集成电路(A S I C)3实现模型的加速计算,具有优良的性能和能源效率,不过它面临着灵活性低、开发成本高、研发时间长等问题;3)使用F P GA4实现模型的加速计算,有着与G P U相当的计算性能,又有着更高的能量效率和灵活性,能够根据卷积神经网络的结构和特点进行优化,所以F P GA正逐渐成为硬件加速的研究热点。基于上述问题,本文提出了一种基于Z y n q平台实现的交通目标检测嵌入式系统,以满足目标检测任务实时性的需求。该设计采用改进YO L O v 3-T i n y作为目标检测模型,并且将参数数据格式量化为8位定点数,在较小精度损失的情况下
15、,进一步压缩模型大小。充分利用Z y n q异构计算系统的优点,采用A RM内核对输入图片的预处理和输出结果的计算,在F P GA端上部署D P U C Z D X 8 G架构加速核对模型中卷积操作进行并行加速计算,最终实现运算速度的提升。1 目标检测网络1.1 模型网络结构YO L O v 3-T i n y模型是在YO L O v 3模型的基础上经过轻量化设计的目标检测网络,适合部署在存储空间有限的嵌入式平台。但是 由于YO L O v 3-T i n y的特征提取网络仅仅包含7层卷积层和池化层,导致模型识别精度有待提高。针对这一问题,我们通过对Y o l o v 3-T i n y模型的
16、特征提取网络进行改造,通过改造33卷积层,用多分支并行卷积的方法对卷积层进行重构,分出一条11卷积的旁路。并且通过结构重参数化5的方法在推理阶段将11的卷积分支合并入33卷积核中,使其在保持直通网络推理速度上的优势的同时,进一步提高检测精度。本文采用的目标检测网络模型结构如图1所示,该结构包含前端的特征提取网络、融合特征金字塔(F e a t u r eP y r a m i dN e t w o r k,F P N)6和最后作为输出的YO L O层。其中,经过改进的特征提取网络包含7个卷积层、6个池化层。前4个卷积层块由33卷积和11卷积并行组合而成。图1 改进后的YO L O v 3-T i n y网络结构1.2 结构重参数化结构重参数化是指在训练的时候使用多分支卷841S EM I C O N D U C T O RO P T O E L E C T R O N I C S V o l.4 4N o.1F e b.2 0 2 3 积结构,在推断时融合为直通式网络。将训练阶段产生的模型通过结构和参数的变化得到推断模型。并且,推断模型的转化方法在数学上经过证明等价,采用该方法可以大幅