1、h t t p:/ww w.j s j k x.c o mD O I:1 0.1 1 8 9 6/j s j k x.2 2 0 1 0 0 2 5 9到稿日期:2 0 2 2-0 1-2 7 返修日期:2 0 2 2-0 6-2 3基金项目:中央高校基础研究基金(WUT:2 0 1 8 I I I 0 6 9 G X)T h i sw o r kw a ss u p p o r t e db yt h eF u n d a m e n t a lR e s e a r c hF u n d s f o r t h eC e n t r a lU n i v e r s i t i e s(W
2、UT:2 0 1 8 I I I 0 6 9 G X).通信作者:韩屏(h a n p i n g w h u t.e d u.c n)结合区域采样和类间损失的人体解析模型李 杨韩 屏武汉理工大学信息工程学院 武汉4 3 0 0 7 0(y a n g_l i 3 1 41 6 3.c o m)摘 要 人体解析是一项细粒度级别的语义分割任务,随着人体解析数据集中标注类别的精细化,人体解析数据集呈长尾分布,导致对相似类别的识别难度不断增大。均衡采样是解决长尾分布问题的有效方法。针对人体解析任务中难以对标注目标进行均衡采样和模型对相似类别的误判率增加等问题,文中提出了一种结合区域采样和类间损失的人
3、体解析模型,该模型包含语义分割网络、区域均衡采样模块(R e g i o n a l l yB a l a n c e dS a m p l i n g M o d u l e,R B S M)和类间损失模块(I n t e r-c l a s sL o s sM o d u l e,I LM)3个部分。首先将待解析图片送入语义分割网络得到初步预测结果,R B S M对初步的预测结果和真实标签进行采样,对采样后的预测结果和真实标签计算主损失;同时提取出语义分割网络的最后一层特征热图与真实标签,并将其送入I LM计算类间损失,让模型同时优化主损失和类间损失,最终得到精度更高的模型。在MH P v
4、 2.0数据集上的实验结果表明,该模型在不更改原有语义分割网络结构的基础上将m I o U评测指标提高了1.3%以上,有效缓解了长尾分布和类间的相似性给人体解析带来的影响。关键词:区域采样;类间损失;长尾分布;人体解析;语义分割中图法分类号 T P 3 9 1 H u m a nP a r s i n gM o d e lC o m b i n e dw i t hR e g i o n a l S a m p l i n ga n dI n t e r-c l a s sL o s sL IY a n ga n dHANP i n gS c h o o l o f I n f o r m a
5、 t i o nE n g i n e e r i n g,W u h a nU n i v e r s i t yo fT e c h n o l o g y,W u h a n4 3 0 0 7 0,C h i n a A b s t r a c t H u m a np a r s i n g i s a f i n e-g r a i n e d l e v e l s e m a n t i c s e g m e n t a t i o n t a s k.T h e r e f i n e m e n t o f a n n o t a t e dc a t e g o r i
6、e s i n t h eh u m a np a r s i n gd a t a s e tm a k e s t h ed a t a s e t f o l l o wal o n g-t a i l e dd i s t r i b u t i o na n di m p r o v e st h ed i f f i c u l t yo f i d e n t i f y i n gs i m i l a rc a t e g o r i e s.B a l a n c e ds a m p l i n g i sa ne f f i c i e n tw a yt os o l
7、 v e l o n g-t a i l e dd i s t r i b u t i o np r o b l e m,b u t i tsd i f f i c u l t t oa c h i e v eb a l a n c e ds a m p l i n go ft h e l a b e l e do b j e c t i nh u m a np a r s i n g.O nt h eo t h e rh a n d,t h e f i n e-g r a i n e da n n o t a t i o nw i l lm a k e t h em o d e lm i s
8、 j u d g es i m i l a r c a t e g o-r i e s.I nr e s p o n s e t o t h e s ep r o b l e m s,ah u m a np a r s i n gm o d e l c o m b i n e dw i t hr e g i o n a l s a m p l i n ga n d i n t e r-c l a s s l o s s i sp r o p o s e d.T h em o d e l c o n s i s t so f t h es e m a n t i cs e g m e n t a
9、 t i o nn e t w o r k,r e g i o n a l l yb a l a n c e ds a m p l i n gm o d u l e(R B S M),a n di n t e r-c l a s s l o s sm o d u l e(I LM).F i r s t l y,t h e i m a g e sa r ep a r s e db yt h es e m a n t i cs e g m e n t a t i o nn e t w o r k.N e x t,t h ep a r s i n gr e s u l t sa n dt h eg
10、r o u n dt r u t hl a-b e l sa r es a m p l e db yr e g i o n a l l yb a l a n c e ds a m p l i n gm o d u l e.T h e nt h es a m p l e dp a r s i n gr e s u l t sa n ds a m p l e dg r o u n dt r u t hl a b e l sa r eu t i l i z e dt oc a l c u l a t e t h em a s t e r l o s s.M e a n w h i l e,t h e
11、 i n t e r-c l a s s l o s sb e t w e e nt h eh e a t m a pf e a t u r e sc o m i n gf r o mt h es e m a n t i cs e g-m e n t a t i o nn e t w o r ka n dg r o u n dt r u t hl a b e l sa r ec a l c u l a t e di nt h e i n t e r-c l a s sl o s sm o d u l e,a n dt h em a s t e r l o s sa n dt h e i n t
12、 e r-c l a s sl o s sa r eo p t i m i z e da t t h e s a m e t i m e t og e t am o r ea c c u r a t em o d e l.E x p e r i m e n t a l r e s u l t sb a s e do nt h eMH P v 2.0d a t a s e t s h o wt h a tt h em I o Uo f t h ep r o p o s e dm o d e l i m p r o v e sb ym o r e t h a n1.3%w i t h o u t
13、c h a n g i n gt h e s t r u c t u r eo f t h e s e m a n t i c s e g m e n t a t i o nn e t-w o r k.T h ea l g o r i t h me f f e c t i v e l yr e d u c e s t h e i m p a c to f t h e l o n gt a i l d i s t r i b u t i o np r o b l e ma n ds i m i l a r i t ya m o n gc a t e g o r i e s.K e y w o r
14、 d s R e g i o n a l s a m p l i n g,I n t e r-l o s s,L o n g-t a i l e dd i s t r i b u t i o n,H u m a np a r s i n g,S e m a n t i cs e g m e n t a t i o n 1 引言人体解析是一项语义分割任务,旨在对人体图像进行逐像素识别,将每一个像素点都归于相应的类别,如头发、手臂、上衣等,最终这些像素点汇聚在一起形成一幅人体解析图。人体解析有助于理解图像中人体各个部位的语义信息,而这些信息在人物动作分析、虚拟试衣、行人重识别等领域都有重要意义。L
15、 o n g等1提出的全卷积神经网络在语义分割上获得了巨大成功,出现了各种基于F C N编码器-解码器范式的优秀人体解析框架,如L i a n g等2利用人体关键点提出J P-P N e t,R u a n等3利用人体边缘信息设计了C E 2 P人体解析框架。除了各种网络结构的创新,L i等4发现数据集中的标签的噪声对 模 型 的 解 析 能 力 造 成 了 很 大 的 影 响,其 提 出 的S CH P将真实标签也放入模型进行迭代优化,形成更具鲁棒性的标签和模型,提高了模型的精度。L i u等5利用人体各个部位的位置分布具有唯一性这一特点,提出了C D GN e t,利用优化目标从人体解析转
16、移到类别的位置预测,再通过位置预测引导获取更加精确的解析结果。尽管人体解析任务已经获得极大的发展,但当前的解析任务仅仅停留在粗略的类别分类,如A T R6,L I P7,C I H P8等大型人体解析数据集虽然在标注数量和标注质量上具有极大的优势,但在标注类别上还稍有欠缺。为了让机器视觉更好地理解图像中目标人物的状态信息,细化解析是有必要的。文献9 提出的F a s h i o n i s t a数据集包含了5 6个分类,训练集包含了4 5 6张,测试集包含了2 2 9张;文献1 0 提供的MH-P v 2.0数据集包含了2 5 4 0 3张,类别解析标注有5 9类。相比F a s h i o n i s t a数据集,MHP v 2.0提供了更大规模的样本数量,能让网络学到更加多样的类别特征。类别数量的增加也会让模型学习到更多的类别信息,以更好地挖掘和理解图像中的内容。但这也会带来相应的问题:1)随着标注类别数量的增多,大型数据集的分布不再均衡,出现了长尾分布的情况。均衡采样是解决长尾分布问题的有效手段,但语义分割领域中的标签是像素级标注,一张图片中往往存在多个类别,如何对像素级标注