1、第 1 期收稿日期:2021-11-11基金项目:战略性国际科技创新合作重点专项(2018YFE0206300,2018YFE0206300-0109)。作者简介:胡亚光(1981-),男,实验师,四川成都音乐美术学院毕业,现主要从事食品安全方面的教学与研究工作。不同预处理模式识别下的近红外绿豆产地溯源研究胡亚光,钱丽丽,陈明明,李上(黑龙江八一农垦大学食品学院,大庆 163319)摘要:采用傅里叶变换近红外漫反射光谱仪测定来自吉林省白城市、黑龙江泰来县、黑龙江杜尔伯特蒙古自治县、山东省泗水县绿豆共 120 份样品的近红外光谱,分别采用一阶导数9 点平滑、标准正态变换(SNV)、多元散射矫正(
2、MSC)、矢量归一化MSC 四种光谱预处理方法,建立偏最小二乘判别模型(PLS-DA),分析不同预处理方法对模型稳定性的影响,结果得出:原始光谱模型判别率为 62.5%,一阶导数9 点平滑预处理模型判别率为 65%,SNV 预处理模型判别率为 65%,MSC 预处理模型判别率为 82.5%,矢量归一化MSC 预处理模型判别率为 90%。因此,采用矢量归一化MSC 预处理方法对绿豆产地判别的准确率最高。关键词:绿豆;近红外光谱;预处理方法;产地溯源;模型稳定性中图分类号:S522;TS201.6文献标识码:A文章编号:1002-2090(2023)01-0059-06Traceability o
3、f NIR Mung Bean Origin under Different Pretreatment ModesHu Yaguang,Qian Lili,Chen Mingming,Li Shang(College of Food Science,Heilongjiang Bayi Agricultural University,Daqing 163319)Abstract:A Fourier transform near-infrared diffuse reflection spectrometer was used to determine the near-infrared spec
4、tra of 120samples from Baicheng city,Jilin province,Tailai county,Heilongjiang province,duerbert Mongolia Autonomous county,Heilongjiangprovince and Sishui county,Shandong province.The first derivative+9-point smoothing,standard normal transformation(SNV),multivariate scatter and Vector-normalized+M
5、SC were used respectively.The results showed that the discrimination rate of originalspectral model was 62.5%,the discrimination rate of first derivative+9-point smoothing pretreatment model was 65%,thediscrimination rate of SNV pretreatment model was 65%,and the discrimination rate of MSC pretreatm
6、ent model was 82.5%Thediscriminant rate of vector normalization+MSc pretreatment model was 90%.Therefore,vector normalization+MSC pretreatmentmethod of mung bean origin discriminant had the highest accuracy.Key words:mung bean;near infrared spectroscopy;pretreatment method;origin traceability;model
7、stabilitydoi:10.3969/j.issn.1002-2090.2023.01.010第 35 卷第 1 期2023 年2 月黑 龙 江 八 一 农 垦 大 学 学 报Journal of Heilongjiang Bayi Agricultural University35(1):5964Feb.2022目前近红外光谱分析技术可在农产品蔬类1、粮食类2、肉类3、烟草4、茶叶5等检测方面广泛应用。基于近红外技术的各种优点,国内外学者将其运用于农产品的鉴别上,齐路明等6对云南 34 份薯蓣扫描近红外光谱,通过归一化、求导等预处理,选取 1 800400 cm-1的二阶求导对其聚类分析
8、和偏最小二乘法,对所有样品的 91.2%进行了正确分类。Zhao 等7为了寻找不同地理来源小麦近红外指纹图谱差异的原因和不同年份间近红外指纹图谱的稳定性,研究了来源、基因型、收获年份及其互作对小麦近红外光谱的影响。10 个品种在中国三个地区种植了 2 年。对 180个籽粒样品进行了近红外光谱分析。预处理后的光谱用主成分分析、多元方差分析和判别偏最小二乘法进行分析。结果表明,产地、基因型、年份及其交互作用对小麦近红外指纹图谱均有显著影响。小麦氮氢和碳氢拉伸振动的第二泛音以及碳氢组的拉伸和黑 龙 江 八 一 农 垦 大 学 学 报第 35 卷变形主要受地理起源的影响。波长范围 975990 纳米、
9、1 200 纳米和 1 3551 380 nm 包含了大量的原产地信息,可用于建立小麦地理起源的稳健判别模型。马天翔等8扫描了甘肃、新疆、宁夏、内蒙古、青海 5个省份锁阳的近红外光谱,采用二阶导数处理结合化学计量学,确定了不同产地锁阳在 8408、7327 等处均有较强的振动吸收峰,快速鉴定了不同产地锁阳成分。夏珍珍等9扫描不同产地的香菇,得到近红外光谱图,对原始光谱预处理结合偏最小二乘法分别建立吉林、湖北、福建 3 省份的判别模型,结果表明,模型对吉林省、湖北省、福建省的识别正确率分别为 96.7%、95.6%和 100%,方法的建立为香菇产地的真实性溯源提供了一种新的方法。Sinelli
10、等10对112 组橄榄油进行近红外光谱扫描并结合传统感官评价进行溯源性分析,结果显示所建立的判别分析模型能正确判别 71.6%的样品,采用 SIMCA 分类时,样品正确判别率增加到 100%,苏学素等11采用近红外光谱结合 PLS-DA 对江西、重庆和湖南的不同地区脐橙进行产地溯源分析,证明近红外光谱结合偏最小二乘法对农产品产地溯源是可行的。采用近红外光谱技术对黑龙江泰来、杜尔伯特,吉林白城,山东泗水绿豆进行溯源研究。探究采用不同光谱预处理方法对产地溯源模型稳定性的影响,以期为建立稳定可靠地近红外光谱产地溯源模型提供理论支持。在农产品产地溯源技术研究中具有重要意义。1材料与方法1.1 主要仪器
11、TENSOR 傅立叶近红外光谱仪,SMART-N 超纯水机,CT193CyclotecTM 旋风粉碎磨,DGG-9023A 电热恒温鼓风干燥箱,TB-4002 电子天平,NEO-6M-0-001 GPS。1.2 样品采集与处理1.2.1 样品采集对绿豆样品采集地进行调研,制定采集方案。确定采集点分别为吉林白城、黑龙江泰来、杜尔伯特、山东泗水。在绿豆成熟期,分别在 2018 年 9 月 9 日、2018 年 9 月 14 日和 2019 年 9 月 5 日到 2019 年 9月 10 日在大田未收割前进行,依据代表性采样原则,采用棋盘式采样法,设置采样点依照种植范围大小,对每块地块对角线分点 5
12、 个重复,按照东、南、西、北、中 5 个采样地点进行区域设计,来进行随机样品采集,每个不同方位的采样点采集 13 kg 豆荚,并记录采样地点、品种、经度、纬度、土质、施肥施药量等信息。所用样本具体信息见表 1。表 1样品信息表Table 1Table of the samples information产地吉林省白城市黑龙江省泰来县黑龙江省杜尔伯特蒙古族自治县山东省泗水县年份2018201920182019201820192019数量/份30303020302010品种大鹦哥绿、小鹦哥绿、龙博 9 号小鹦哥绿、毛绿豆明绿豆、黄绿豆毛绿豆、明绿豆经度12238123221234212420124
13、44124461144811624纬度451345184639465946864696343935521.2.2 样品预处理方法将采集回来的绿豆荚按照地区编号,在无扬尘、整洁、透光的晾晒场地进行晾晒,按照编号同一地区同批次人工破碎豆荚,去除壳皮、灰尘小石粒等杂质,得到完整的绿豆籽粒。用超纯水对前处理后的绿豆籽粒进行流动水清洗,清洗后烘干至水分 5%以下,再进行旋风磨粉碎处理,过 60 目尼龙筛,得到绿豆粉样本,放入密封袋 4 保存,所有样本采用统一处理方式。1.2.3 近红外光谱采集方法利用近红外光谱仪,根据文献 12-14 所述,将200300 g 的绿豆样品粉末放置于旋转样品杯中,然后启动
14、光谱仪进行近红外光谱扫描,提前开机预热1 h,扫描的范围为 12 0004 000 cm-1,扫描频率为64 次,分辨率为 8 cm-1,室温 25,空气湿度为45%,扫描过程中要避免两个样品间的交叉污染,每次扫描后要擦净样品杯,每个样品均扫描背景,消除其他外界环境干扰,每个样品扫描 3 次取平均光谱为60第 1 期最终光谱。1.3 数据统计分析采用 OPUS 7.5、Unscramb 10.4 对近红外实验数据及融合后的数据进行建模分析。在光谱数据处理时常用的预处理方法很多,比如标准正态变换(SNV)、多元散射校正(MSC)、矢量归一化,导数处理等,实验结合样品结构体系和参考文献 15,以
15、4 种预处理后的建模集光谱和未经处理的光谱建立预测模型,分析 4 种预处理方法及未预处理光谱所建立模型的稳定性。模型预测正确率计算公式如下:预测正确率(%)=所有产地与实际情况相符的样本数量所有产地实际样本数量100%2结果与分析2.1 试验样品的选取与划分将样本分成验证集和建模集,随机选择 2/3 的样本用于作为建模集,验证集选择 1/3 的样本,来用于检验模型的准确性。共得到建模集样本为 80 个,验证集样本为 40 个,如表 2 所示:表 2建模集与验证集Table 2Correction set and verification set产地吉林省白城市黑龙江省杜尔伯特蒙古族自治县黑龙江
16、省泰来县山东省泗水县建模集样本20202020验证集样本10101010总计303030302.2 近红外光谱预处理四个产地共 120 个样本的近红外光谱图如图 1所示,由图可知,所有绿豆样品图谱混杂在一起,四个不同产地难以用肉眼分辨,这些肉眼不可区分的近红外光谱图不仅含有不同产地绿豆的结构信息,也包含着一些无关信息和噪声。这些无用的信息和噪声可能是由于在操作过程中会存在很多行为,例如人为操作不当,仪器误差等都会对光谱产生影响,样品的近红外光谱信号也会受到杂散光、噪声、基线漂移等因素影响,以至于最后分析结果不理想16,因此在运用近红外光谱联合判别模型进行分析之前,需要对原始近红外光谱图进行预处理,即采用数学统计的方法消除或减弱一些干扰因素对光谱的影响,以便于更好的对近红外光谱进行解析说明,提高模型分析的可靠性和准确性。2.3 不同预处理方法模型的建立与验证将建模集原始光谱数据和经过一阶导加 9 点平滑预处理、SNV 预处理、MSC 预处理、矢量归一化+MSC 预处理后的数据导入 Unscrambler 10.4 软件中,首先根据实际样本类别,对建模集样本进行分产地赋值,即白城样本赋值为