1、第 卷 第 期 年 月石河子大学学报(自然科学版)()收稿日期:基金项目:兵团重点领域创新团队()作者简介:姚思雨(),女,硕士研究生,专业研究方向为深度学习及图像处理,:。通信作者:王磊(),男,副教授,主要研究方向为机械制造、机械设计及理论方面,:。:.文章编号:()基于 的棉田杂草识别方法姚思雨,王磊,张宏文(石河子大学机械电气工程学院,新疆 石河子)摘要:针对杂草的精确喷洒问题提出一种基于卷积神经网络(,)的棉花植株和杂草的检测识别方法。首先采集不同环境下棉田中棉花植株和不同种类的杂草图像作为网络模型的数据集,对数据集进行数据增强来增加数据集的数量,将其分为训练集与测试集;然后构建 模
2、型,在模型中添加 层,以防止网络出现过拟合,将训练集数据输入网络模型,使模型学习棉花植株和杂草的特征信息;最后将测试集数据输入 模型,测试 模型对棉花植株和杂草的识别能力。研究结果表明 对于棉花植株和杂草的分类结果精度超过了.,识别时间为.,证明 可以快速高效的识别棉田中棉花植株和杂草,为农业智能精确除草装备的研发提供研究基础。关键词:棉花植株;杂草识别;深度学习;卷积神经网络中图分类号:.文献标志码:,(,):,(),.,.,:;中国棉花种植的优势区域是新疆,棉花是新疆主要的经济作物之一,年新疆棉花种植面积占全国棉花种植面积的.。杂草与棉花争夺水、养分、光、空间和二氧化碳,会导致棉花的产量损
3、失,另外,在棉田大面积不合理使用除草剂会对棉花产生危害,并且污染土壤环境,增加成本。为了增加棉花产量,减少环境污染问题,可利用机器视觉技术,对棉花植株和杂草的图像进行分类精确识别,实现精准喷洒除草剂,从而降低成本,保护土壤和棉花免受过量除草剂的影响。近年来,很多学者在杂草识别方向有大量研究成果,其中 等提出了一种在不平衡杂草数 据 集 上 训 练 深 度 神 经 网 络(,)模型的多重训练策略,该策略通过一个最小类最大界过程减少训练中的偏差,将训练集中的样本分成多个折叠,模型在每一个折叠上连续训练,识别植物幼苗数据集的精确度为.;张小龙等对豌豆苗期田间常见杂草的、和 颜色空间中各组分的灰色分布
4、进行了对比分析,提出了一种基于 色差特征的复杂背景下杂 石河子大学学报(自然科学版)第 卷草分割提取方法,识别杂草的精确度为.。等提出一种基于视频处理和灰度共生矩阵、颜色特征、纹理特征、不变矩和形状特征的元启发式分类器的机器视觉原型,利用这些数据在线识别和分类了 份土豆和 种杂草的样本,识别精确度为;等采用改进的 最邻近法杂草图像分类方法,结合 小波和区域协方差李群结构对 种阔叶杂草图像进行分类,总体识别精确度为.;等提出一种基于 的杂草作物语义分割检测方法,并且集成 个组件以提高分割精度,提高了复杂环境中任意形状杂草的分割性能。另外,由于卷积神经网络(,)具有局部感知、参数共享和权值共享的网
5、络结构特点,因此被广泛应用于图像分类、目标识别、语音识别等领域,如 等将 应用于食物图像的检测和识别,通过参数优化,准确率明显高于传统基于支持向量机的手工特征提取方法,另外,等提出一种基于 的水果识别算法,首先利用选择性搜索算法提取图像区域,然后利用水果图像的熵对区域进行选择,最后将这些区域作为 的输入进行训练和识别,用最优训练集对网络进行训练后,对称重秤上堆叠的水果识别率显著提高。上述方法不依赖于图像预处理和数据转换,可以独立获取图像中有用的特征信息,识别精度优于传统的人工特征识别方法。为了实现精准喷洒除草剂,需要一种能准确识别棉田中棉花植株与杂草的检测识别方法,作为一种成熟的深度学习方法被
6、广泛应用于多个领域的图像识别工作中,但没有学者将其应用到棉花的杂草识别工作中。本文提出一种基于 的棉田杂草识别方法,用于发现样本数据的分布式特征和属性,与传统的图像识别和目标检测方法相比,该方法的识别速度、识别精度和泛化能力都有所提高。试验数据.试验数据获取 试验所需数据为 年 月在新疆第七师 团农场棉田拍摄,分 个阶段,每阶段相差,图片获取设备为 ,图像分辨率为 像素 像素,格式为,相机距离地面高度为 。试验共采集 张棉花植株与棉田中杂草的图像,为了使试验更具有科学可行性,保证图像样本多样性,棉花植株与杂草的数据是在不同时间、不同天气、不同拍摄角度下随机采集的。棉花植株与杂草的光照强度会影响
7、网络的识别率,以不同时间和不同天气的棉花植株和杂草照片作为数据集训练的 模型可以准确识别不同光照强度的棉花植株和杂草。在采集前不对作物周围环境做任何人工处理,不同环境下棉花植株与杂草对应的样本数量见表,部分样本图像如图 所示。表 不同环境下棉花植株与杂草对应的样本数量名称种类晴 张阴 张雨 张多风 张棉花杂草图 部分样本图像.数据增强 使用 对棉花植株与杂草进行识别时,需要充足的数据才能保证网络具有较好的识别效果,当试验样本不足时可能会导致网络识别精度低、网络过拟合等问题,而通过随机扭曲、变形等方法将已有的图像数据不断生成新的样本数据。本文使用 中 库中的 (简称 函数)函数对棉花植株与杂草数
8、据进行数据增强(图)。图 图像数据增强效果第 期姚思雨,等:基于 的棉田杂草识别方法 基于 的棉田杂草识别模型 模型能够学习图像输入和输出之间存在的复杂关系,图 为常用 的模型图。模型由 网络框架为基础改进而来。图 常用卷积神经网络模型结构图 本文提出一种可直接识别棉花植株和杂草图片的 模型结构,将 应用于棉花植株和杂草的识别工作时,需要按照识别对象分类难度设定 的层数和具体的参数。在结构方面,由多个卷积层、池化层和全连接层组成。为了防止网络产生过拟合,本文提出的 在此基础上加入 层,层可防止网络出现过拟合,使网络泛化能力更强。本文提出的 具体模型结构如图 所示。图 棉田杂草识别的 模型结构图
9、 基于 棉田杂草识别模型具体参数如表 所示,卷积层利用卷积计算获取棉花植株和杂草图像数据集中的特征信息。卷积层中包含卷积核、步长与激活函数等参数,其中,卷积核又称为滤波器,卷积核的大小为,步长为,激活函数为。由于卷积层在选取子区域时会遗失非常多的边缘信息,所以一般会在卷积层中设置边界填充,边界填充会以图片边界上填充 的方式补全图片边界信息。中最大池化层一般都在卷积层之后,其主要作用是对卷积层输出的张量进行下采样操作,下采样可以将特征图的尺寸减少一半,从而减少了网络运行中不必要的计算,增加网络识别速度。表 基于 棉田杂草识别模型的结构参数层数网络类型卷积核 步长 卷积数输出大小卷积层(,)池化层
10、(,)卷积层(,)池化层(,)卷积层(,)池化层(,)卷积层(,)池化层(,)层(,)全连接层(,)层(,)最大池化层从上层特征图中选择特征,同时使网络模型对平移、旋转和缩放保持不变。最大池化层根据过滤器的大小将输入棉花植株和杂草图像数据集分成几个矩形区域,并输出每个区域的最大值。本文 中池化层的大小为,步长为。为了防止 过拟合,本文研究在 中加入 层,层将输入张量中部分值置 来关闭网络神经元的某些节点,这可以增加图片特征的多样性,使网络只学习与识别图片相关的图片特征信息,可从较少的数据集中学习到利于分类的特征,使网络模型更具有鲁棒性。层中的参数是设为 的值占总值的比率,一般为.,本文将 层设
11、为.。中的全连接层将上层神经元输出的多维特征转换为一维特征,全连接层激活函数为。层是分类层,它可以对上个全连接层的输出张量进行分类,激活函数将输出值映射在 之间,分类器按照映射的值进行分类。棉田杂草识别模型训练.试验平台 本研究试验的运行环境为 位 系统,显卡为 (七彩虹);搭载 为()()石河子大学学报(自然科学版)第 卷.(四核),内存 ,编译器为.,运行平台为.中 中的 深度学习框架。.模型训练及步骤 ()分别建立棉花植株和杂草的数据集文件夹,棉花植株文件夹起名为,杂草的文件夹起名为,棉花植株和杂草的每个文件夹还包括 与 个子文件夹。将 文件夹和 文件夹作为网络的标签,不同环境下棉花植株
12、和杂草的图片数据作为训练与测试网络的数据,其中棉花植株的图片数据 张,不同种类杂草的图片 张。将不同环境下棉花植株和杂草的 张图片分为 等分,每一等分 张,分别将前三等分为训练集,后二等分分为测试集。()使用 函数分别对不同环境下棉花植株和杂草的训练集进行数据增强,通过随机地改变图像的朝向、反转图像、按比例缩放图像、按一定方向平移图像、改变图像对比度、对图像像素点进行噪声扰动和切磋变换等方式,从图片数据集中生成新的棉花植株和草的图片数据集。()建立 模型。图 为棉田杂草识别 模型结构图,其中网络损失函数为二进制交叉熵,网络优化器为,网络学习率为.,网络中除了最后一个全连接层的激活函数为 函数,
13、其余卷积层和全连接层的激活函数为。()将数据增强后的棉花植株和杂草的数据集输入 模型训练网络,使网络学习棉花植株和不同种类杂草的分类特征。()将不同环境下棉花植株和杂草的测试集输入训练好的 模型,得到测试集的测试精度和损失,以此测试模型的识别分类能力。模型训练的结果与分析.精度与损失 网络模型的精确度与损失可以直观解释网络对于棉花植株和杂草的分类情况。在多次模型训练 中随机选取一组结果展示,图、图 分别为棉花植株和杂草的该 模型的精度结果图、损失结果图,这两个图中虚线、实线分别代表网络的棉花植株和杂草的训练集结果和测试集结果。从这 个图可以看出 棉花植株和杂草的测试集分类精度比训练集的精度高且
14、接近,说明网络中的 层有良好的抗过拟合作用,可使测试集训练结果比训练集结果高,网络模型的损失接近,测试集的损失比训练集的损失低。从网络的精度和损失结果图发现该模型 可以准确识别不同环境下棉花植株和杂草的具体特征,能在棉花植株中识别出多种杂草,为实现精准喷洒除草剂打下良好基础。图 准确率对比图 损失函数对比.箱线图 模型的精度和损失结果只能展示多次试验中的一次试验结果,而精度箱线图能包含十次试验的精度结果,因此,本文研究引入精度箱型图。图 为棉花植株和杂草识别模型的十次精度箱型图,可以看出棉花和杂草的 识别结果精度基本在.以上,表明 模型可以准确地识别出不同环境下的棉花植株和不同种类的杂草。图
15、精度箱型图第 期姚思雨,等:基于 的棉田杂草识别方法 .混淆矩阵 网络的精度图只能看到总的分类情况,而混淆矩阵可以得到棉花植株和杂草的具体分类精度,可以用来衡量 模型分类的准确程度。图 为 的混淆矩阵图,其中横坐标是预测的标签,为测试集的分类结果,纵坐标为真实的标签,为测试集原始结果,通过对比预测标签和真实标签可以分别得到网络的棉花植株与杂草的识别精度;标签 代表棉花植株,标签 代表各种种类的杂草。从图 可以看出棉花植株和杂草的分类精度都是,表明网络基本可以识别不同环境下的所有的杂草和棉花植株。图 棉花植株和杂草识别模型的分类结果混淆矩阵.不同天气对模型识别的影响 为了研究不同天气对该 模型识
16、别能力的影响,将不同天气的数据集平均划分,每种天气图片数量各 张。使用训练好的该 模型分别识别不同天气的图片集,该模型模型在晴天、阴天、雨天和有风的识别率分别为.、.、.和.,表明该 模型在晴天的识别率最高,在雨天的识别率最低。因此,将 应用于棉花植株和杂草识别工作中时,需要适当增加雨天、阴天样本集。.方法的对比与分析 基于 棉田杂草识别技术可以依据棉田中杂草复杂度调整 的层数,在不浪费计算机资源的情况下达到最优识别结果,为了体现本文提出的基于 棉田杂草识别模型的有效性,将 分别与 、的棉田杂草识别结果进行对比,结果见表。由表 可知:在运行速度上,棉田杂草识别的平均识别时间最短,平均识别时间只有.,而 平均识别需要.,而 为.。产生上述结果的主要原因是 可以自定义结构,从而可以最大化利用计算资源。值得一提的是 为实例分割网络,使用 学习训练数据时需要消耗大量计算资源。在平均识别精度方面,对测试集的平均识别率最高,它的识别率为.,而 的平均识别率为.,的平均识别率为.。以上结果及分析表明:可以快速准确识别出棉田中的杂草。表 不同网络的结果对比网络名称平均识别时间 平均识别率.结论 本文提