采用RGB-D的标准件语义分割方法.pdf

资源描述

1、机械设计与制造126Machinery Design&Manufacture第8 期2023年8 月采用RGB-D的标准件语义分割方法屈力刚，杨英铎，邢宇飞，荆麒璃（沈阳航空航天大学航空制造工艺数字化国防重点学科实验室，辽宁沈阳110 0 0 0）摘要：图像的语义分割在工业自动化分栋、自动化装配等领域中具有重要的应用，在工程应用中有很多形状相同、尺寸不同的工件，同一类别的不同尺寸的工件在图像上仅通过彩色图像难以区分其在尺寸上差别。为了解决这一问题，提出了一种结合深度图像生成尺度特征图的方法，通过尺度特征图中目标中的点与目标重心的距离作为衡量不同尺寸目标的尺度，区分不同尺寸目标的类别，并基于MA

2、SK-RCNN设计了尺度分类网络结构。选取形状相同、尺寸不同工件中较具有代表性的标准件制作数据集进行测验。实验结果表明该方法具有较好的准确性，对于标准件数据集的语义标签分类准确率达96.3%。关键词：目标分类；语义分割；深度学习；卷积神经网络中图分类号：TH16TP391文献标识码：A文章编号：10 0 1-39 9 7(2 0 2 3)0 8-0 12 6-0 4Semantic Segmentation of Standard Parts Using RGB-DQU Li-gang,YANG Ying-duo,XING Yu-fei,JING Qi-yu(Shenyang Universi

3、ty of Aeronautics and Astronautics,National Key Laboratory of Aeronautical Manufacturing ProcessDigital Defense,Liaoning Shenyang 110000,China)Abstract:Image semantic segmentation has important applications in industrial automatic sorting,automatic assembly and oth-er fields.In engineering applicati

4、ons,there are many workpieces with the same shape and diferent sizes.It is dificult to distin-guish the size differences of workpieces of the same category with different sizes only through color images.In order to solve thisproblem,a method of generating scale feature map combined with depth image

5、is proposed.The distance between the point andthe centerofgravity ofthe target in the scalefeature map is used as the scaleto measure the targets of different sizes,and the cate-gories of targets of diferent sizes are distinguished.The scale classification network structure is designed based on the

6、Mask-RCNN.The data sets of standard parts with the same shape and different size are selected for testing.The experimental resultsshow that this method has good accuracy and the semantic tag classification accuracy of standard parts data set is 96.3%.Key Words:Object Classification;Semantic Segmenta

7、tion;Deep Learning;Convolution Neural Network1引言工业机器人作为工厂自动化生产线的重要组成部分，可以通过接受外部传感器信号获得目标的位置与姿态，并完成分栋、抓取、装配等各种任务。近年来，深度学习与图像的结合，使得计算机可以通过图像来计算任意摆放在世界坐标系中工件的姿态，而不再需要使用夹具固定在确定的位置，极大的提高了自动化的程度。而图像语义分割作为图像分析与处理的基础，是位姿估计的重要组成部分。如何精准的获得图像中目标的类别、位置和轮廓是图像语义分割的主要任务，也是研究的难点之一。在实际的工程应用过程中，有很多形状相似但是尺寸不同的零件，在语义分割

8、的过程中很难区分这些不同尺寸零件的具体类别。在这些形来稿日期：2 0 2 2-0 6-0 7基金项目：基于数字李生体的大尺度航空部件数字化智能对接关键技术研究(SHSYS20180)作者简介：屈力刚，（197 1-），男，辽宁沈阳人，博士研究生，教授，主要研究方向：数字化设计与制造、数字化检测技术；杨英铎，（1996-）,男，辽宁营口人，硕士研究生，主要研究方向：数字化制造状相似、尺寸不同的零件中,以具有代表性的标准件为例,结合深度图像提升对标准件进行语义分割的过程中分类的准确度，并自制标准件数据集进行验证方法的有效性。2相关工作图像的语义分割（Image Semantic Segmentat

9、ion）由文献首次提出，并将图像语义分割定义为：为图像中的每一个像素分配一个预先定义好的表示其语义类别的标签。而卷积神经网络(ConvolutionalNeuralNetworks,CNN)的出现及快速发展，图像分割领域取得了巨大的突破。文献 2 提出了FCN(FullyConvolu-tionalNetworks），将CNN的全连接层用卷积层取代，适应任意尺寸的图像输入。同时使用上采样的反卷积层，可以输出更精确的第8 期结果。最后结合不同深度层结果的跳级结构，以确保鲁棒性和精确性。但FCN丢失了很多目标轮廓的细节特征,得到的边缘过于平滑。文献 3在FCN的基础上提出了一种基于实例感知的语义

10、分割任务的全卷积网络FCIS(FullyConvolutional Instance Seg-mentation）,继承了FCN在语义分割和实例掩码上的所有优点,能够对目标同时进行检测和分割。但是FCIS对于重叠的目标很难将其准确的分割出来。文献 4提出了ReSeg网络,使用RNN检索上下文信息以弥补FCN没有充分利用像素与像素之间的关系的不足。文献 5提出了先分割候区域，再进行分类的方法，这种方法在准确度方面有所提升，但速度上并没有优势。文献6 团队提出了MASK-RCNN网络结构，能够同时完成目标分类，目标检测与目标的像素级分割任务。同时使用ROIAlign替代了ROIpool-ing,降

11、低了ROIpooling过程中两次量化过程所带来的误差。随着RGB-D相机的出现，深度图像所包含的空间信息可以帮助二维RGB图像进行更准确的图像分割。两个在普通RGB图像中有所重叠的目标在三维点云中可以很容易的得到两个目标的距离,并区分两者的类别。文献 7 将深度图像融入CNNs进行语义分割的FuseNet，同时提取出图像中的深度信息与彩色信息，并随着网络的深入将深度信息融人到彩色信息中。文献 8 提出了SCN网络，使用深度图像中提取出对象之间的几何关系来提升图像分割的精度。文献 9设计了彩色图像与深度图像融合的双金字塔特征融合结构，证明了彩色图像与深度图像融合可以提升图像分割的精度。文献 1

12、0 提出了一种结合通道注意力机制的RefineNet网络，针对各个通道不同的重要性提供通道注意力，以增强网络对特征的学习与关注。综上，这里提出一种通过深度图像获得尺度特征图来对相同形状不同尺寸目标的分类方法。首先通过深度图像与真实语义分割图相结合得到目标在图像上的区域，通过相机的内外参数计算出目标的点云。其次计算目标点云的重心位置并求出点云中每个点到重心的欧式距离。然后将得到的欧式距离作为衡量目标尺寸的尺度映射到一张灰度图像中，作为目标的尺度特征图。最后对尺度特征图进行图像分类，获得目标的精确类别。这里在MASK-RCNN的基础上设计了尺寸分类分支网络，在相同形状不同尺寸的物体中选取较有代表性

13、的标准件制作数据集，以语义分割网络对目标分类的准确率验证方法的有效性，选取最优的参数并与原MASK-RCNN网络的结果进行对比。3图像分割网络3.1成像原理如图1所示，直径150 mm的轴承，如图1（a)所示。直径110mm的轴承，如图1(b)所示。两个轴承尺寸不同但在图像中呈现相同的特征，在没有背景和参照物的情况下很难依据轴承的尺寸辨别其类别。为能够准确的对其进行图像分类，从成像原理的角度出发找寻二者之间的差别。成像原理，如图2 所示。Oc为相机坐标系原点,X，Y。,Z.分别为相机坐标系的坐标轴，o为图像坐标系原点，x，分别为图像坐标系的坐标轴。目标中的一点P在相机坐标系与图像坐标系的转换关

14、系为：屈力刚等：采用RGB-D的标准件语义分割方法式中：K一相机的内参矩阵。目标上有两点Pi，Q，当目标尺寸放大s倍，目标上的点Pi，Q,在相机坐标系中的坐标值也扩大s倍时，放大后的两点P2,Q2在图像坐标系中与Pi,Q,具有相同坐标值。所以同理可知形状相同，尺寸不同的物体在不同的摄像机视角下会呈现相同的图像。普通的RGB图像只能得到目标每个像素在图像中的x,y的坐标值,并不能得到Z.的值,所以通过普通的RGB图像无法得知目标在相机坐标系中点云的坐标，也就很难区分在没有参照物的情况下形状相同、尺寸不同的物体的类别。而RGB-D相机可以通过红外信号获得Z.的值，弥补了RGB图像的这一缺点。通过R

15、GB-D相机,可以还原目标在世界坐标系下的点云，以点云中的点之间相互的位置关系可以辨别目标的尺寸大小。如图2 所示，PI,Q,与P2,Q,在图像坐标系中具有相同的坐标，但是还原为点云之后通过比较P,Q1与P,Q,的距离就可以区分二者的类别。(a)Fig.1 Bearing Image ComparisonYx,y0X图2 目标缩放原理Fig.2 Principle of Target Scaling3.2图像的尺度特征图当相机变换不同的视角时，目标中的点在相机坐标系中的坐标值也随之发生改变，但是因为目标的形状并没有改变，所以目标中的每个点相对目标中其他点的位置关系也没有改变。以目标中的每个点到

16、目标重心位置的距离作为衡量目标尺寸大小的标准，称为目标的尺度特征。将尺度特征映射到一张灰度图像中，称为目标的尺度特征图,其中包含了每个像素的位置及对应点到重心的距离信息。通过RGB图像与尺度特征图的结合更容127xX.Z.=KYL1JLz.J(1)(b)图1轴承图像对比Q2ZNo.8128机械设计与制造易区分不同尺寸标准件的类别。深度图结合真实语义分割图语义分割模型。再根据真实语义分割图在深度图上获得每个子(Ground Truth)可以得到目标的每个像素位置和与相机坐标系原类别的像素位置,并转化为尺度特征图,使用ResNetl!l训练分类点的距离,并将除目标以外的背景像素值置为0。使用公式(1)可模型。预测时若没有相同形状的目标则直接输出目标的类别,若以得到目标在相机坐标系下的点云。然后使用公式(2)可以得到有相同形状不同尺寸的目标则结合mask分支的结果与深度图转目标的重心坐标。化为点云，进而得到目标的尺度特征图，通过尺度特征图的分类P=2P.P,e M(2)=1式中：M一目标点云的集合；P一每个点的坐标；1一点云中点的个数。再使用式(3)计算目标点云中每个点到重心的距离。D=2(

展开阅读全文