1、书书书文章编号:-()-基于机器学习的红外光谱数据鉴别中药材性能方法田春婷*,赵宁,秦建伟,孟晓凤(兰州石化职业技术大学 信息工程学院,甘肃 兰州 )摘要:中药材种类不同,近红外和中红外光谱特征也有很大差异由于无机元素和有机物质等化学成分不同,所以即使同种中药材产地不同,在近红外和中红外光谱辐照下标记效果也会显示不同的光谱特性,这些特性可用于对中药材进行分类和产地识别借助 软件和 分类工具K-均值聚类算法对中药材进行无监督机器学习,从而对中药材进行分类同时,运用 神经网络多层感知器和 语言提供的随机森林算法,将数据集的 作为训练集,作为验证集,进行监督机器学习模型训练,从而对中药材产地进行鉴别
2、预测关键词:红外光谱;机器学习;聚类分析;神经网络中图分类号:;文献标志码:Am a c h i n e l e a r n i n gm e t h o d s f o r i d e n t i f y i n g t h ep r o p e r t i e s o fC h i n e s em e d i c i n a lm a t e r i a l s f r o mi n f r a r e d s p e c t r u md a t a -,-,-(,)A b s t r a c t:-,-K-,-;,-K e yw o r d s:;众所周知,中药材道地性衡量的重要指标
3、之一是中药材产地,它与中药材药效息息相关因此,中药材产地和分类鉴别就显得尤为重要中药材的传统鉴别技术主要是依据相关专业人员的经验,鉴别结果带有一定的主观性和诸多不确定因素随着红外光谱技术的快速发展,在中药材鉴别领域红外光谱技术发挥出越来越巨大的优势中药收稿日期:-基金项目:甘肃省教育厅创新基金(-)通讯作者:田春婷(-),女,陕西西安人,副教授 :q q 材是具有红外活性的化合物,在红外线照射下分子会吸收同一频率的红外光谱中药材的红外活性随着红外光谱频率不同而发生改变,以此可以对中药材进行相应的定量和定性分析,最终判断出中药材的相关特性这使得中药材的鉴别结果不仅越来越客观,也越来越科学不同类型
4、和不同产地的中药材对中红外和近红外光谱的吸收状况不一样,得到的红外光谱数据也不同将机器学习和大数据等计算机技术用于中药材红外光谱数据分析,可以使分析流程得到简化,极大提升中药材的鉴别效率和准确度第 卷第期 年月兰州理工大学学报 聚类分析属于无监督的机器学习分类方法因此,本文采用 分类工具K-均值聚类对中药材红外光谱数据集进行分析处理,实现中药材分类;同时,运用 神经网络多层感知器和 语言提供的随机森林算法对中药材红外光谱数据集进行监督机器学习模型训练,并对中药材产地进行鉴别预测对基于红外光谱数据的中药材产地鉴别方法进行探讨,目的是为利用机器学习技术自动辨识并评价中药材的分类和产地预测提供应用依
5、据 S P S S分类工具K-均值聚类的中药材分类运用 分类工具K-均值聚类分析方法,以 个中药材样本的中红外光谱吸光度()数据作为特征值,进行中药材分类其中,个中药材样本光谱参考数据集来源于 年高教社杯全国大学生数学建模竞赛题的附件 该附件提供了 个中药材()中红外光谱波数(连续区间 )对应的吸光度()样本数据源首先,对参考数据集进行数据预处理,剔除特征异常值;接着,采用肘部分析方法求出聚类系数K值;最后,运用 分类工具K-均值聚类方法进行中药材分类 数据预处理运用 中 函数,绘制出中药材中红外原始光谱图,如图所示图 中红外原始光谱图F i g M i d i n f r a r e do
6、r i g i n a l s p e c t r u m可以看出,有组光谱特征值明显偏高,分别是编号为 、的中药材由于不符合中红外光谱吸光度特征值,所以将这组特征异常值剔除图为剔除特征异常值后中红外光谱图图 剔除异常值中红外光谱图F i g S p e c t r u ma f t e r r e m o v i n go u t l i e r s i nm i d i n f r a r e d 运用S P S S软件建立聚类分析模型实现分类对剔除特征异常值后的数据集进行K-均值聚类分析确定聚类数K值后,利用 计算每个K值对应的聚类系数,并绘制聚类系数关于K值的曲线,如图所示可以看出,聚
7、类数K时曲线骤然由急变缓因此,聚类数K 为最佳选择图 聚类数K值曲线F i g C l u s t e r i n g c o e f f i c i e n tKv a l u e c u r v e以聚类数K作为种类个数,运用 软件进行K-均值聚类分析迭代 次后实现收敛,生成个聚类的不同种类中药材数量和部分中药材分类情况,如表和表所列兰州理工大学学报 第 卷表 各聚类中药材数量T a b T h en u m b e ro fC h i n e s em e d i c i n a lm a t e r i a l si ne a c hc l u s t e r聚类中药材种类 表 部分中
8、药材分类情况T a b C l a s s i f i c a t i o no f s o m eC h i n e s em e d i c i n a lm a t e r i a l s编号聚类编号聚类 中药材产地鉴别预测的具体流程和结果本文中药材产地分类采用 年高教社杯全国大学生数学建模竞赛题附件为数据集该附件提供了 个中药材()近红外光谱波数(连续区间 )吸光度和中红外光谱波数(连续区间 )吸光度以及中药材产地类别O P分类模型采用 神经网络多层感知器 和 语言提供的随机森林机器学习算法,特征值为近红外、中红外的原始光谱吸光度以及将二者组合并进行二阶差分预处理后的光谱吸光度,以已知
9、中药材产地类别为参考输出将上述种分类模型和组特征值分别进行组合,总共完成次监督机器学习模型训练以期获得最优模型结果,并对缺失产地类别信息的中药材进行产地鉴别预测 二阶差分数据预处理中药材受样品自身和外界环境干扰的影响,导致采集的原始光谱数据可能夹杂着一些无用信息,也可能丢失了一些有用的光谱数据为提高光谱数据的精确度,往往需要进一步对原始光谱数据进行预处理在众多数据预处理方法中,二阶差分可以合理地去除噪声和数据的干扰因此,本文选择二阶差分对原始光谱数据进行预处理图为 个中药材样本近、中红外原始光谱图图中显示数据集不存在特征异常值,从而不需要进行异常特征值剔除处理将近红外和中红外数据集合并,进行二
10、阶差分图 近、中红外原始光谱图F i g N e a r a n dm i d i n f r a r e do r i g i n a l s p e c t r a预处理具体流程如图所示可以看出,经过二阶差分预处理之后数据集被标记为D 图 二阶差分预处理F i g S e c o n do r d e rd i f f e r e n c ep r e p r o c e s s i n g 基于S P S S神经网络多层感知器的中药材鉴别预测运用 神经网络多层感知器 进行中药材产地鉴别预测在 分类工具中分别导入近、中红外原始数据集和预处理后的数据集D,作为模型训练数据源进行模型比对训练选
11、择“分第期田春婷等:基于机器学习的红外光谱数据鉴别中药材性能方法 书书书析-神经网络-多层感知器”子菜单选项设置O P为因变量,所有光谱吸光度为协变量将数据集分为训练集()和验证集(),设置神经网络运行显示隐藏层数为,隐藏层单元数为,保存因变量的预测值,其余参数均按照默认值进行设置进行次神经网络多层感知器模型训练,在保存的因变量O P中存储了组O P预测值,自动生成组预测结果模型摘要和 曲线,分别如表和图所示其中,状态转换值为,基于检验样本的误差计算中使用的中止规则为误差在个连续步骤中没有减小 曲线图反映了模型训练结果的可靠性从图 R O C曲线F i g R O Cc u r v e表 预测
12、结果模型摘要T a b M o d e l s u m m a r yo f p r e d i c t i o nr e s u l t近红外预测训练交叉熵误差不正确预测 训练时间 校验交叉熵误差不正确预测 中红外预测训练交叉熵误差不正确预测 训练时间 校验交叉熵误差不正确预测 二阶差分预处理后预测训练交叉熵误差不正确预测 训练时间 校验交叉熵误差不正确预测 图的组 曲线可以看出,图线下方面积都超过 以上,表明预测结果均非常可靠图中组数据集的 神经网络模型训练结果模型摘要预测情况如表所列表 S P S S神经网络M L P模型摘要对比T a b S P S Sn e u r a l n e
13、t w o r kM L Pm o d e l s u m m a r y c o m p a r i s o n模型数据集训练集不正确预测率 检验集不正确预测率 模型近红外原始光谱 模型中红外原始光谱 模型二阶差分预处理光谱 可以看出,第次模型训练结果的组不正确预测率都比第次低,但是训练集不正确预测率 比第次模型训练结果高,而验证集不正确预测率 比第次模型训练结果 低因此,第次经过二阶差分预处理后合并光谱数据集模型训练结果的预测正确率最高综上所述,针对组不同数据集,次 神经网络 模型训练中,第次经过二阶差分预处理后合并光谱数据集模型训练的效果最好由此说明,对经过二阶差分预处理后合并光谱数据集
14、进行训练的模型为最优模型 基于P y t h o n随机森林算法的中药材鉴别预测选择 语言提供的随机森林算法进行监督机器学习模型训练,预测中药材产地分别以近、中红外原始数据集和经过二阶差分预处理后的数据集作为数据源,进行模型比对训练具体步骤如下:)分别导入组数据源,以剔除缺失O P值对应行的数据集作为模型训练特征值;)划分数据集,作为训练集,作为验证集,选定随机森林算法作为模型进行训练;)用训练好的模型对训练集进行测试;兰州理工大学学报 第 卷)用训练好的模型对验证集进行测试;)根据训练集的预测结果和实际训练集结果求出训练集分类准确率;)根据验证集的预测结果和实际验证集结果求出验证集分类准确率
15、;)用训练好的模型对缺失的中药材产地类别O P值进行预测最终,得出组训练集和验证集的平均分类准确率,如表所列表 中药材产地鉴别预测准确率T a b P r e d i c t i o na c c u r a c yo f o r i g i nc l a s s i f i c a t i o no fC h i n e s em e d i c i n a lm a t e r i a l s模型数据集训练集平均分类准确率 验证集平均分类准确率 模型近红外原始光谱 模型中红外原始光谱 模型二阶差分预处理光谱 训练集和验证集的平均分类准确率可以直接确定模型预测结果的准确性从表可以看出,第次经
16、过二阶差分预处理后合并光谱数据集模型训练结果的准确率最高,训练集平均分类准确率为 ,验证集平均分类准确率为 因此,对经过二阶差分预处理后合并光谱数据集进行训练的模型是次基于随机森林算法的最优模型 模型预测结果的对比分析本文采用种机器学习分类模型 神经网络 和 语言提供的随机森林算法对组数据集总共完成了次模型对比训练,对缺失的中药材产地类别进行了预测对所得组预测结果进行对比分析,结果表明,在进行 和随机森林算法模型训练中,二阶差分预处理后数据集比原始数据集的训练结果准确率更高、可靠性更好表列出了部分中药材(、)的产地鉴别预测结果表 部分中药材产地预测结果T a b P r e d i c t i o nr e s u l t s o f o r i g i no f s o m eC h i n e s em e d i c i n a lm a t e r i a l s编号近红外原始光谱 随机森林中红外原始光谱 随机森林二阶差分预处理光谱 随机森林 可以看出,第列和第列所列中药材产地预测结果分别出自 神经网络 和 语言提供的随机森林算法对经过二阶差分预处理后合并光谱数据集进行训练的最