1、第 卷,第期 光谱学与光谱分析 ,年月 ,基于高光谱技术的三七不同部位粉末的无损鉴别姚坤杉,孙俊,陈晨,徐敏,程介虹,周鑫江苏大学电气信息工程学院,江苏 镇江 江苏科技大学经济管理学院,江苏 镇江 摘要三七是一种传统的中药材,具有较高的药用价值。目前市场上中药售假的现象屡见不鲜,许多不法商贩将三七支根或剪口粉末假冒主根粉末销售,严重损害了消费者的利益。利用高光谱技术结合多元分析方法实现三七不同部位粉末的快速无损鉴别。通过高光谱成像系统分别采集了三七剪口、须根和主根粉末在 范围内的高光谱图像,共 个样本。采用 ()平滑结合标准变量变换()的方法对高光谱数据进行去噪和消除因散射引起的光谱差异。为了
2、移除光谱变量中的重迭和冗余信息,利用竞争自适应重加权采样()算法和本文提出的一种考虑了变量间交互作用的二进制竞争自适应重加权采样()算法进行特征波长选择。最后分别建立了基于全光谱、和 特征波长的支持向量机()和极端梯度提升()分类模型。结果表明,模型的分类效果最优,训练集和测试集的分类准确率分别为 和 。与 相比,所选择的特征波长数量较少,有助于多光谱系统和便携式仪器的开发。利用高光谱技术结合 模型鉴别三七不同部位粉末是可行的。关键词高光谱;三七;极端梯度提升;特征波长选择中图分类号:文献标识码:()收稿日期:,修订日期:基金项目:国 家 自 然 科 学 基 金 项 目(),江 苏 高 校 优
3、 势 学 科 建 设 工 程 项 目(),中 国 博 士 后 科 学 基 金 项 目()资助作者简介:姚坤杉,年生,江苏大学电气信息工程学院博士研究生 :通讯作者 :引言三七为五加科、人参属草本植物,是我国特有的中药材,具有悠久的药用历史,可用于治疗外伤性出血、跌扑肿痛、便血、咯血等。现代药理学研究表明,三七的主要活性成份为皂苷,具有抗氧化、降低血压和抗血栓等功效。三七的剪口、主根和支根部位都含有皂苷,其中剪口中的含量最高,支根中的含量最低,但由于三七主根中的皂苷最易被人体吸收,药用价值最高,价格也最贵。不同部位的三七粉末价格相差可达 倍以上。从外观形态上很容易分辨剪口、主根和支根,但三七通常
4、是以粉末的形式出售,不同部位的三七粉末颜色和气味相近,很难通过肉眼或嗅觉对其进行区分。一些不良商贩利用这一特点,将支根或剪口粉末冒充主根粉末销售以牟取暴利,严重影响了市场秩序。目前,液相色谱法是区分不同部位三七粉末的主要方法,但该方法操作复杂、耗时过长且对样本具有破坏性,无法满足现代农业检测的实时性要求。因此,开发一种快速无损的三七粉末检测方法具有重要的实用价值。高光谱成像是一种新兴的多信息融合技术,能够同时获取目标的图像和光谱信息,克服了传统光谱技术点源采样的缺点。目前,高光谱技术已被应用在中药的产地、真伪和品种检测中。据了解,还没有关于利用高光谱技术鉴别三七不同部位粉末的报道。因此,通过高
5、光谱技术实现三七不同部位粉末的无损鉴别具有重要意义。高光谱技术可以提供目标丰富的光谱信息,但其中也包含了大量的重叠和冗余信息,直接利用全光谱数据进行建模难以取得较为理想的效果,且不利于多光谱系统或便携式仪器的开发。特征波长选择是光谱分析中的一个关键步骤,可以有效降低波段间的多重共线性,提高模型的精度和鲁棒性。研究中提出了一种考虑了变 量 间 交 互 作 用 的二进制竞争自适应重加权 采 样(,)算法对三七粉末的光谱变量进行特征选择。分别建立了基于全光谱、和 特征波长的支持向量机(,)和 极 端 梯 度 提 升(,)分类模型进行了对比和分析。实验部分 材料实验所用样本为云南文山三七,实验前将剪口
6、、主根和支根分别粉碎,通过 目筛盘进行筛选。每次通过电子天平称取 三七粉末作为一个样本,放置于玻璃器皿中,保持表面平坦,共制备了 个样本(每个部位 个样本)。高光谱图像采集本研究使用的的高光谱成像系统(如图所示)主要包括:光谱仪()、相机、电控移动平台、卤素灯、光源调节器和计算机。为避免环境光的干扰,所有实验均在暗箱中完成。相机的曝光时间为 ,物距为 ,电控移动平台的速度为 。获取的原始高光谱图像利用式()进行校正()式()中,为校正后的图像,为遮盖镜头(反射率)得到的黑标定图像,为扫描标准白板(反射率)得到的白标定图像。图高光谱成像系统 光谱数据提取与预处理在对高光谱图像进行校正后,将三七粉
7、末样本中心直径为 像素的圆形区域内所有像素点的光谱取平均作为单个三七粉末样本最终的反射光谱。去除受仪器噪声影响较为明显的初始波段后,最终有效的光谱范围为 ,共 个波段。由于三七粉末的颗粒大小不均匀,在采集光谱的过程中容易发生散射现象。此外,受仪器性能的影响,光谱信号中难免掺杂着部分随机噪声,因此对光谱数据进行预处理是必要的,可以有效提高后续所建立的模型的精度和鲁棒性。采用 ()平滑结合标准变量变换(,)对原始的光谱数据进行预处理。平滑可以通过低通滤波的方式消除光谱信号中的噪声,提高信噪比。可以消除由散射产生的光谱差异,减小基线漂移。特征波长选择算法 是一种基于进化论中“适者生存”模式的变量选择
8、方法。在 中,通过迭代的方式,保留适应性较强的变量,移除适应性较差的变量。选择特征变量的步骤如下:()通过蒙特卡洛(,)采样随机抽取一定比例的样本建立偏最小二乘(,)模型,并以回归系数的绝对值作为对应变量的权重。()利 用 指 数 衰 减 函 数(,)消除一定数量权重较小(即适应性较差)的变量,然后采用自适应重加权采样(,)进一步选择关键变量。()利用关键变量构成的样本子集再次建立 模型,并计算交叉验证均方根误差(,)。()重复步骤()步骤()直到达到设定的采样次数。最终,将 最小的 模型中的变量选择为特征变量。尽管 算法具有较高的计算效率而得到了广泛的应用,但其缺点是将每个变量当做独立的个体
9、,忽略了变量之间的交互作用,导致部分有用的信息变量被移除和所选择的特征变量中仍可能存在部分冗余信息。针对以上缺点,提出 了 一 种 考 虑 了 变 量 间 交 互 作 用,适 应 于 分 类 问 题 的 算法,具体步骤如下:()假设输入矩阵为,输出矩阵为,其中和分别为样本和变量的数量,通过采样随机选取个样本,得到新的输入和输出矩阵,。()生成一个与输入矩阵大小相同,只包含和的二进制矩阵,其中每一列中和的数量相等。矩阵的每一行都分别用来决定矩阵中用于建模的变量,数值“”表示对应的列变量用于建模,数值“”表示不用于建模。()将矩阵第列中所有的更改为,得到矩阵,然后将矩阵第列中所有的更改为,得到矩阵
10、,和的生成过程如图所示。()通过变量间的交互作用评价每个变量的重要性。利用矩阵的 第(,)行 分 别 建 立 一 个 基 于,的 偏 最 小 二 乘 判 别 分 析(,)分类模型,可以得到第个变量的交叉验证准确率向量(行列);同理,利用矩阵可得到对应的向量。此时,模型集群分析可以基于和来评价第个变量的重要性。()计算和的平均值,分别记为和,两者的差定义为式()()利用威尔科克森检验()对和进行统计分析,根据值及将所有变量划分为如下三类,见式()光谱学与光谱分析第 卷图二进制矩阵生成过程 ,()其中 ,和 分别代表信息变量,干扰变量和无信息变量。将归一化处理后的作为第个变量的权重。()利用 移除
11、变量,其中干扰信息变量被优先移除,其次是无信息变量,最后是信息变量。采用 进一步选取关键变量构成新的样本子集,然后利用新的样本子集再次建立 分类模型并计算交叉验证准确率。此外,所选取的关键变量在下轮迭代中用于生成新的输入矩阵。()重复步骤()步骤()直到达到最大采样次数。最终选择交叉验证准确率最高的 模型中的变量被选择为特征变量。算法的流程如图所示。模型的建立与评价 是一种基于梯度提升框架的新型机器学习算法。在梯度提升树的基础上,在 函数中引入了二阶泰勒展开以加快优化速度,并在目标函数中添加了归一化以避免过度拟合。由于其出色的性能,已经被用来解决一些实际问题,如 的传输时间序列预测,洪水风险评
12、估和乳腺癌的识别等,但在高光谱模型中的应用还很少。因此,本文应用 算法建立三七不同部位粉末的分类模型以期提高预测性能。作为对比,本研究也使用了传统的 算法。结果与讨论 光谱数据预处理采用 平滑和 结合的方法对原始光谱数据进行预处理,其中 平滑点数和多项式阶数分别设置为和,结果如图所示。对比两图()和()发现,预处理后光谱曲线中的毛刺明显减少,不同类型三七粉末样本间的光谱差异降低。图()为预处理后三七剪口、支根和主根部位粉末的平均光谱曲线,可以看出三种三七粉末的光谱曲线整体趋势相同,但在部分波段范围内存在较为明显的差别,为建立三七不同部位粉末的鉴别模型提供了依据。在 附近,三者的光谱曲线都有较强
13、的吸收,这解释了三七不同部位的粉末颜色接近,很难从外观上进行区分;附近的弱吸收峰与水的 伸缩振动第二泛音有关,可以解释为三七粉末中几乎不含水。图 算法的流程图 第期 姚坤杉等:基于高光谱技术的三七不同部位粉末的无损鉴别图预处理前后光谱曲线():原始光谱曲线;():预处理后光谱曲线;():预处理后不同部位三七粉的平均光谱曲线 ():;():;():特征波长选择特征波长选择可以有效消除光谱变量中的冗余和重叠信息,降低模型的复杂程度,有利于多光谱系统和便携式仪器的开发。在本文中,和 用来选择特征波长,在两种算法中采样都设置为 次并使用折交叉验证。最终 和 算法分别选取了 个和个特征波长,如表所示。和
14、 附近的波段分别与键的第四和第三泛频相关,这可能是由三七不同部位中多糖含量差异导致的。表 和 的特征波长选择结果 算法波长数量特征波长 ,分类模型的建立在本研究中,的实验环境为 ,主要的超参数设置如表所示。在 中采用 核函数,惩罚参数和核函数参数的值由交叉验证寻优的方式确定。表 模型的超参数设置 超参数取值子学习器数量()学习率()树的最大深度()最小分裂增益()样本采样率()特征采样率()子节点中样本权重和的最小值()将 份三七粉末样本每类按的比例随机划分为训练集和测试集。基于全光谱数据、和 特征波长数据,分 别 建 立 和 分类模型,结 果如表所示。从表可以看出,基于全光谱数据建立的 和
15、分类模型均已取得较好的分类效果,但两个模型的训练集和测试集的分类准确率相差都较大,存在过拟合现象。经过特征波长选择后,由于光谱数据中的冗余和干扰信息被移除,和 模型的分类精度和鲁棒性都得到了提高。在分类精度方面,基于三种光谱数据的 模型的分类准确率均高于 模型,表明 算法比传统的机器学习算法具有更强的发掘变量间关系的能力;基于 特征波长数据的 和 模型的分类准确率均高于基于 特征波长模型的分类准确率,表明 具有 更 强 的 特 征 选 择 性 能。在 建 模 复 杂 程 度 上,和 均有效地简化了模型,所用波长数量分别仅为全光谱的 和 。最终,基于 特征波长的 模型分类效果最佳,训练集和测试集
16、的分类准确率分别达到了 和 。因此,利用高光谱技术结合 模型可以有效地对三七不同部位的粉末进行无损鉴别。表 和 的建模结果 模型光谱数据波长数量分类准确率训练集测试集全光谱 ()()()()()()全光谱 ()()()()()()结论利用高光谱技术结合多元分析方法鉴别三七不同部位粉光谱学与光谱分析第 卷末具有可行性。为了消除光谱变量中的重叠和冗余信息,提出一种考虑了变量间交互作用的 算法对三七样本的光谱数据进行特征波长选择。结果表明,与 算法相比,所提出的 算法具有更强的特征选择性能,且所选择的特征波长数量更少,有助于多光谱系统和轻型化仪器的开发。最终,所建立的 分类模型的训练集和测试集的准确率分别为 和 。因此,利用高光谱技术结合 模型可以有效地对三七不同部位的粉末进行无损鉴别。,:,:,():,:,:,:,():,:,:,:,():,()()(),(),(),()(),;(,;,)第期 姚坤杉等:基于高光谱技术的三七不同部位粉末的无损鉴别