1、 国外电子测量技术北大中文核心期刊D O I:1 0.1 9 6 5 2/j.c n k i.f e m t.2 2 0 4 4 3 0混合坐标注意力与改进空间金字塔池化融合的物体位姿估计*党选举1,2 李启煌1,2(1.桂林电子科技大学电子工程与自动化学院 桂林 5 4 1 0 0 4;2.广西智能综合自动化高校重点实验室 桂林 5 4 1 0 0 4)摘 要:在物体杂乱放置非遮挡和遮挡构成的复杂场景下,针对位姿实时、准确和稳定地估计的问题,提出了混合坐标注意力与改进空间金字塔池化融合的目标位姿估计算法。搭建了由坐标特征、通道特征和空间特征组成的混合坐标注意力残差模块,有效提高了关键点估计的
2、准确率。改进了空间金字塔池化网络,并通过颈部位置的多尺度特征细化方法,获得边缘姿态及空间位置的高精确估计。将所制作的遮挡数据集,进一步验证所提出算法性能和泛化能力。在公开L i n e M o d及P a r t i a l O c c l u s i o n遮挡数据集上,所提算法与基于组特征注意力(S A)算法相比A D D指标分别提高2.2 6%和2.5 7%,5 c m 5 指标分别提高5.1 6%和4.1%,达到了3 0 f p s实时处理速度,为遮挡等复杂场景下的物体位姿估计提供一个有效的方法。关键词:遮挡;混合坐标注意力;空间金字塔池化;位姿估计中图分类号:T P 3 9 1.4文
3、献标识码:A国家标准学科分类代码:5 2 0.6 0P o s e e s t i m a t i o n o f o b j e c t s c o m b i n i n g s h u f f l e c o o r d i n a t e a t t e n t i o n a n d i m p r o v e d s p a t i a l p y r a m i d p o o l i n gD a n g X u a n j u1,2 L i Q i h u a n g1,2(1.S c h o o l o f E l e c t r o n i c E n g i n e e
4、 r i n g a n d A u t o m a t i o n,G u i l i n U n i v e r s i t y o f E l e c t r o n i c T e c h n o l o g y,G u i l i n 5 4 1 0 0 4,C h i n a;2.K e y L a b o r a t o r y o f G u a n g x i C o l l e g e I n t e l l i g e n t-C o m p r e h e n s i v e A u t o m a t i o n,G u i l i n 5 4 1 0 0 4,C h
5、 i n a)A b s t r a c t:I n t h e c o m p l e x s c e n e c o m p o s e d o f n o n-o c c l u s i o n a n d o c c l u s i o n o f o b j e c t s p l a c e d i n d i s o r d e r,a i m i n g a t t h e p r o b l e m o f r e a l-t i m e,a c c u r a t e a n d s t a b l e p o s e e s t i m a t i o n,a t a r
6、 g e t p o s e e s t i m a t i o n a l g o r i t h m c o m b i n i n g s h u f f l e c o o r d i n a t e a t t e n t i o n a n d i m p r o v e d s p a t i a l p y r a m i d p o o l i n g i s p r o p o s e d.A s h u f f l e c o o r d i n a t e a t t e n t i o n r e s i d u a l m o d u l e c o n s i s
7、 t i n g o f c o o r d i n a t e f e a t u r e s,c h a n n e l f e a t u r e s a n d s p a t i a l f e a t u r e s h a s b e e n b u i l t t o e f f e c t i v e l y i m p r o v e t h e a c c u r a c y o f k e y p o i n t e s t i m a t i o n.T h e s p a t i a l p y r a m i d p o o l i n g n e t w o r
8、 k i s i m p r o v e d,a n d t h e m u l t i-s c a l e f e a t u r e t h i n n i n g m e t h o d o f n e c k p o s i t i o n i s u s e d t o o b t a i n h i g h l y a c c u r a t e e s t i m a t i o n o f e d g e p o s e a n d s p a t i a l p o s i t i o n.T h e p r o d u c e d o c c l u s i v e d a
9、 t a s e t i s u s e d t o f u r t h e r v a l i d a t e t h e p e r f o r m a n c e a n d g e n e r a l i z a t i o n c a p a b i l i t y o f t h e p r o p o s e d a l g o r i t h m.O n t h e p u b l i c L i n e M o d a n d P a r t i a l O c c l u s i o n o c c l u s i v e d a t a s e t s,t h e p r
10、 o p o s e d a l g o r i t h m i m p r o v e s A D D m e t r i c s b y 2.2 6%a n d 2.5 7%r e s p e c t i v e l y,a n d 5 c m 5 m e t r i c s b y 5.1 6%a n d 4.1%,r e s p e c t i v e l y,c o m p a r e d t o t h e s h u f f l e a t t e n t i o n(S A)-b a s e d a l g o r i t h m,r e a c h i n g a r e a
11、 l-t i m e p r o c e s s i n g s p e e d o f 3 0 f p s,p r o v i d i n g a n e f f e c t i v e m e t h o d f o r o b j e c t p o s e e s t i m a t i o n i n c o m p l e x s c e n e s s u c h a s o c c l u s i o n.K e y w o r d s:o c c l u s i o n;s h u f f l e c o o r d i n a t e a t t e n t i o n;s
12、 p a t i a l p y r a m i d p o o l i n g;p o s e e s t i m a t i o n 收稿日期:2 0 2 2-1 0-2 0*基金项目:国家自然科学基金(6 2 2 6 3 0 0 4,6 1 8 6 3 0 0 8)项目资助0 引 言近年来,大量研究致力于复杂场景下估计目标物体6自由度的平移及旋转位姿信息,这一直是工业机器人抓取发展的重要研究课题1。针对在遮挡和非遮挡复杂场景中杂乱放置情况下,估计目标物体的6 D位姿主要有3种方式。1)基于投票方式。文献2-4 分别通过引入像素级向量投票技术、考虑图片颜色输入信息和增加距离影响因871北大
13、中文核心期刊国外电子测量技术 素的方法,降低遮挡对目标位姿估计的影响,提高目标位姿估计 的 准确 度,但 运算 量 大。2)直 接 回 归 方 式。文献5 对图像中心进行定位,预测其与相机距离,估计对象位姿。文献6 扩展S S D算法产生的2 D检测框信息,推断物体位姿。文献7 采用了融合通道空间注意力网络C S A 6 D,直接输出物体6 D位姿。此类方式减少了运算处理量,但网络估计的位姿精度有待提高。3)关键点方式。文献8 先预测多个小块的热图,再综合热图信息获得位姿。文献9 从细化的感兴趣目标区域,得到3 D检测框的角点在图像上的投影点坐标,采用多阶段的方法回归关键点,提高了位姿估计的精
14、度,但结构较为复杂。为了简化模型结构,文献1 0 采用YO L O框架,加快了网络定位关键点速度,但模型训练效果和鲁棒性有待加强。文献1 1引入通道注意力机制,提高了位姿估计精度。以上3种方式,在遮挡和非遮挡场景下,都存在位姿估计准确度、速度和稳定性三者之间有效平衡问题。围绕位姿估计准确度、速度及稳定性问题,本文采用YO L O框架,设计了一种混合坐标注意力(s h u f f l e c o o r d i-n a t e a t t e n t i o n,S C A)机制,并融合改进的空间金字塔池化(s p a t i a l p y r a m i d p o o l i n g,S
15、P P)网络,构造了单阶段端到端6 D位姿估计模型(YO L O-S S)。该模型无需细化处理,具备轻量化特点。为了适应特定的遮挡环境,制作了遮挡数据集,丰富了训练数据,验证了模型的鲁棒性和泛化能力。1 Y O L O-S S的网络结构本文提出了一种YO L O-S S的网络结构,精简了颈部网络结果,以提高推理速度;提出一种改进的S P P网络,增强整体 与细 节 信 息 的融 合;构造 了 混 合 坐标 注 意 力(S C A)残差模块,在网络结构中添加位置特征信息;选择合适的激励函数,增强网络的鲁棒性。1.1 Y O L O-S S的改进结构本文所提出的YO L O-S S网络如图1所示,
16、以D a r k-n e t 5 3作为主干网路1 2-1 3,提出了S C A注意力,具体结构如虚线框中S C A残差模块(S C A-R E S X)所示。通过该模块抑制部分与目标无关的背景和其他弱相关物体带来干扰的特征信息,如数据集图片中所包含的标定板和周围杂乱物体,突出目标区域的重要信息。图1 整体框架(YO L O-S S的网络结构)由于原始颈部采用多尺度处理时,位姿估计实时性差。YO L O-S S网络在原始YO L O v 3的颈部加入了图1中改进的S P P模块,对局部目标区域的位置细节信息和整体的语义轮廓信息进行提取和融合,得到更高维度的特征信息。在S P P输出引入1/1 6倍原分辨率的特征图,实现通道维度上的拼接,减少了特征图多次下采样带来的位置信息丢失。将网络多尺度输出删减为单尺度(分辨率1 31 3)输出,通道数为A(9 2+1+C),其中A为锚框(A n c h o r)个数,每个锚框包含9对关键点坐标、1个置信度值和C个类别概率信息。1.2 混合坐标注意力残差模块在遮挡目标位姿估计中,缺失估计目标特征信息,产生特征提取偏差现象及降低目标检测精度。此外,主干