1、果品品质的近红外光谱无损检测建模分析关键技术研究Study for Crucial Technique in Modeling Analysis of Nondestructive Detection of Fruit Quality by NIR Spectroscopy一、选题的目的与意义随着国家经济的快速发展和国民生活水平的显著提高,新鲜果品及各种水果制品以其独特的口感和丰富的营养价值逐渐成为人们继主食之后的最主要休闲食品之一。我国是世界第一大水果生产和消费国,除粮食、蔬菜之外,水果在国内已成为第三大种植产品,在农业和农村经济发展中更是占据着十分重要的地位。据国家统计局2008年发布的信
2、息显示:我国苹果、梨、桃、李和柿子的产量均居于世界前5位;尤其是柿子和梨,中国的产量分别占世界总产量的71.5%和52.9%;苹果和梨的产量也占世界产量的40%左右;另外,猕猴桃、柑桔、葡萄、香蕉等产量也呈急剧上升趋势。虽然这些年我国水果产量在世界始终处于前列,但原果品质以及水果加工制品质量却与世界发达国家相比存在很大的差距,这也是限制我国水果产业健康发展并走向世界的巨大瓶颈(李辰 2010)。导致这种差距的主要原因归结于果实田间生长期间、采摘后储藏过程中以及后续加工环节里未能及时、全面掌握果品品质变化,准确、客观了解果实品质特性。果品的品质特性通常根据其糖度、硬度、酸度、颜色、形状和产地等多
3、种指标来综合评价。在国家标准及进出口检验中,常通过检测糖度、硬度和酸度来评价果品的品质特性,但因各种水果的品质差异较大,实际检测中可根据具体情况选取合适的测定指标。目前,国内仍多采用传统破坏式检测方法对果品品质进行评价,即选取一定实验样本,经复杂的预处理后、通过破坏样品组织结构的方法来检测所需物化指标的方法,该方法不仅费时费力、浪费样品,而且难以实现大批量样品的分析和生产、加工环节中的实时在线检测。因此,利用先进的现代无损检测技术代替传统检测方法对于实现果品的生产、储藏、加工及流通各环节的质量控制与品质保证,从而突破我们果品产业发展瓶颈具有非常重要的实际意义。所谓无损检测技术是在不破坏检测样品
4、的前提下,利用对象内部结构特异性及组分含量多少所引起的对热、声、光、电、磁等反应的变化,来探测各种农产品内部指标。根据检测方法不同大致可以分为光学特性分析法、声学特性分析法、机器视觉技术分析法、电学特性分析法、核磁共振检测技术与X射线检测技术等(徐惠荣 2010)。以上各种无损检测技术在研究和实际生产中得到了不同程度的应用,其中,近红外光谱技术因其高效率、低成本、易操作和方便多组分同时检测等诸多优点,被分析化学界誉为“分析巨人”,尤其随着近年来计算机技术和化学计量学的高速发展,更被广泛应用于农业、石油、化工、医药和生物等各个方面。近年来,国内外在利用近红外光谱技术进行各类果品品质检测以及开发在
5、线实时果品品质检测装置和便携式果品检测仪器方面的报道很多。但在国内外诸多研究中近红外分析模型普遍存在着“欠拟合”与“过拟合”问题,而高质量的模型应该具有建模样本少、速度快、精度高和适应性强等特点,这也是决定近红外光谱技术能否在果品品质检测中被更广泛应用的关键所在。近红外光谱分析关键技术主要包括三方面:建模样本的优选、有效光谱信息的提取以及建模方法的选择。其中,任何一个环节方法选择的不合理或操作的不科学,将直接对分析模型造成重要的影响,甚至关乎整个建模分析的可行与否。因此,系统研究近红外光谱分析中各关键技术,通过综合比较选取各单元操作最佳方法,对于优化模型、提高预测精度、增强模型适应性以及改善模
6、型稳健性等都具有非常重要的意义。为此,本文旨在对成熟期及采收储藏期的果品品质的近红外光谱分析过程中,通过对建模样品的优选(相似与异常样品的剔除、校正集与验证机的划分)、有效光谱信息的提取(特征波长与特征区域的选取)和建模方法的选取(线性回归与非线性拟合)各关键环节进行系统研究,综合分析选取各环节处理方法,建立高效、准确、适用和稳健的最优品质分析模型,也为便携式近红外果品品质检测仪的开发提供技术支撑。二、选题的依据1.理论依据近红外光谱(NIRs)是介于可见光谱区和中红外光谱区之间波长7802526nm(波数128203959cm-1)的电磁波(陆婉珍 2006)。近红外光谱的主要信息为物质含氢
7、基团(包括O-H、N-H、C-H等)对近红外光的倍频与合频吸收,这使得近红外光谱技术不仅可以检测物质中与这些基团相关的组分,如糖度、酸度、蛋白质、淀粉、脂肪和氨基酸等,而且可用于分析物质的密度、硬度和粘度等性质(郭文川等 2001)。比尔朗贝定律(The Beer-Lambert Law)是近红外光谱分析中的一个重要定律,它奠定了近红外光谱分析的基础:将所研究的样品组分的浓度值与通过仪器测量得到的光谱值之间的关系进行关联(刘建学 2007),即:其中,样品在特定波长(或频率)的吸光度;样品的所研究组分在该特定波长下的吸光系数;光程,即光通过样品的行程;样品中所研究组分的浓度值。然而,近红外谱区
8、谱峰重叠非常严重,谱峰比较宽,谱区的可解析性很差,一般很难确定某一组分对应的特征谱峰,进行直接定量分析是非常困难的。因此,这便要求结合化学计量学方法从复杂的数据中提取尽可能多的有效信息后进行建模分析。水果主要包含水分、糖类、蛋白质、脂肪以及维生素等成分,其中绝大多数成分化学组成中均含有近红外光的特定吸收基团,各组分在近红外区域具有不同的特征吸收光谱,这也为利用近红外光谱分析果品品质提供了有力的理论依据。2.技术依据果品的近红外光谱检测方式通常有三种:反射光检测、漫反射检测和透射光检测,这三种光谱采集手段各有所长,其中漫反射光谱检测是一种介于反射与透射之间能够较客观反映水果内部的组织结构特性,并
9、在常见水果品质测定中被广泛采用的研究方法(王多加等 2004)。在果品品质常规检测中,根据果品内部主要成分及结构特点,常利用近红外光谱技术分析果品表观缺陷、表面颜色和内部成分含量如可溶性固形物、硬度、酸度以及干物质等多个代表性指标(杨春梅等 2009)。水果样品处理与光谱采集样品光谱的预处理过程测定样品各内部成分含量未知样本适应性判断数学模型建立及精度验证预测未知样品的成分含量未知成分的水果光谱采集图1 近红外光谱分析技术的一般流程框图利用近红外光谱技术定量检测果品品质的大致流程图如图一所示,该分析过程主要结合以下关键技术实现:(1)代表性样品优选技术在近红外光谱分析中,建模样品的科学选取,即
10、代表性强、数量适当和分布均匀的建模样品对所建模型的预测性能具有直接的影响,该环节具体包括相似、异常样品的剔除、校正集与验证集样品的合理划分等关键方法。其中,常见的相似或异常样品的剔除思想为:基于预测浓度残差、基于重构光谱残差、光谱PLS分解主成分得分的聚类分析,以及杠杆值与学生T检验等准则(闵顺耕等 2004);建模样品集的科学划分方法常根据样品光谱的积累和性质或组成数据的分布来选择建立定标集的样品,并通过部分样品进行验证:含量梯度法、Duplex算法、Kennard-Stone法、GN距离法以及SPXY算法等(吴静珠等 2006)。(2)光谱数据预处理技术光谱采集过程中由于仪器、环境变化、操
11、作等因素,会产生多种干扰,直接影响光谱质量,而通过多种预处理技术可对原始光谱数据进行消噪、数据提取与压缩等目的,从而提高数据质量,使经预处理后的光谱客观的反映物质组分与结构信息,这对于高性能模型的建立非常关键。常用光谱数据预处理技术主要有,微分方法、多元散射校正方法、平滑方法、归一化方法、标准正态变换和小波变换等技术(褚小立等 2004)。(3)光谱信息筛选技术样品光谱的产生受到样品的成分、成分之间的相互作用、光谱仪及样品前处理等多种因素的影响,近红外光谱分析是从分析样品光谱复杂、重叠和变动的背景中提取信息(洪涯等 2010)。建模谱区的优选不但可以简化模型,更重要的是能将不相关或非线性变量进
12、行剔除,增强校正模型的预测能力(孙旭东等 2009)。目前有效建模光谱波段和波长的选择方法主要有相关分析法、逐步回归法、无信息变量的消除法(UVE)、间隔偏最小二乘法(iPLS) 、模拟退火算法(SAA)、多链方法(MCM)和遗传算法(GA)等。(4)模型定量校正技术定量校正方法的选取是近红外光谱检测中起决定性作用的一个环节,利用适当、有效的定量校正方法将果品品质指标与内部成分的光谱信息进行关联、拟合,可以保证模型建模效率高、预测精度好、适应性强。在近红外分析中常用的定量校正校正方法有多元线性回归法(MLR)、主成分回归法(PCR)、偏最小二乘法(PLS)、人工神经网络法(ANN)以及拓扑方法
13、(TP)等(刘建学 2007)。以上各建模分析关键技术中都需采用各不同的优选算法及定量校正方法,以下对实际研究分析中最可能采用的关键技术方法、算法原理进行简单介绍:SPXY建模集样品划分方法是Galvao等人在2005年提出来的基于x-y距离结合的样本划分方法(sample set partitioning based on joint x-y distance, SPXY),该方法是在K-S法的基础上发展起来的,可有效地用于NIR定量模型的建立,优点在于能够有效地覆盖多维向量空间,从而改善所建模型的预测能力(Galvao et al. 2005)。用dx(p,q)代替dy(p,q),同时为了
14、确保样本在X和Y空间具有相同的权重,将dx(p,q)和dy(p,q)分别除以它们在数据集中的最大值,因此标准化的xy的距离公式为: 连续投影算法(Successive Projection Algorithm, SPA)是一种前向循环的变量选择方法,能够从严重重叠的光谱信息中提取有效信息,目的是选择那些最小冗余信息量的波长,解决共线性问题。除了用于光谱变量的选择,SPA亦可用于确定由主成分分析所得到的主成分的最佳主成分组合(陈斌等 2007)。遗传算法(Genetic Algorithms, GA)在近红外光谱建模分析中样品优选、特征光谱波长提取以及人工神经网络的优化方面都有着广泛的应用。它通
15、过全面模拟自然选择和遗传机制,形成了一种以“生成+检验”特征的自适应全局的概率搜索算法(李敏强等 2002)。其实现基本流程如图2所示:确定实际问题参数集对参数集进行编码初始化群体P(t)评价群体满足停止准则YES结束遗传操作群体P(t)群体P(t+1)No1) 位串解码的参数;2) 计算目标函数值;3) 函数值向适应值映射;4) 适应值调整1)选择;2)交叉;3)变异;其他高级算子5) 适应值调整图2 简单遗传算法基本流程框图人工神经网络(Artificial Neural Networks,简写为ANN)是对人脑或自然神经网络(Natural Neural Network)若干基本特性的抽
16、象和模拟。它在一定程度和层次上模仿了人脑人经系统的信息处理、存储及检索功能,因而具有学习、记忆和计算等智能处理功能。人工神经网络具有强大的信息处理能力,在近红外光谱非线性校正建模分析中有着广泛的应用前景。人工神经网络因连接方式的不同也表现为各种形式的网络模型,而在果品品质的近红外光谱检测建模分析中常用到的为BP网络和RBF网络,其基本网络结构图如图3所示。其中,BP网络算法的基本思想是,学习过程由信号的正向传播和误差的反向传播两个过程组成。正向传播时,输入样本从输入层传入,经各隐层逐层处理后,传向输入层。若输入层的实际输出与期望的输出不符,则转入误差的反向传播阶段。误差反传是将输出误差以某种形式通过隐层向输入层逐层反传,并将误差分摊给各层的所有单元,