1、食品与发酵工业 ():引用格式:刘忠艳,刘瑶,乔付,等 基于近红外光谱和多层感知机的贻贝中腹泻性贝毒快速无损检测 食品与发酵工业,():;,():;基于近红外光谱和多层感知机的贻贝中腹泻性贝毒快速无损检测刘忠艳,刘瑶,乔付,郝博麟,姜微,熊建芳(岭南师范学院 计算机与智能教育学院,广东 湛江,)(岭南师范学院 电子与电气工程学院,广东 湛江,)摘 要 以腹泻性贝毒(,)污染和未污染良好贻贝为研究对象,利用近红外光谱仪采集 波长内各 个样本的光谱数据;分析确定适合贻贝近红外光谱(,)的最佳预处理方法来消除环境光的影响;构建多层感知机(,)模型作为检测 污染贻贝的分类器。将 个样本构成的数据集按照
2、随机划分为训练集和测试集,将运行 次模型得到的准确率的平均值作为最终评价指标,检测 污染贻贝的准确率达到 。该研究所构建的基于 的 模型对 的检出限为 。对于实际应用中存在的数据集中训练集所占比重不同、小样本和类别不均衡等问题,分析了 模型的检测性能。实验结果表明,基于一阶导数光谱预处理的 模型对以上 种问题不敏感,说明该分类器泛化能力及鲁棒性较强。因此,将 与 分类器结合是一种可行的贝毒无损鉴别的新方法。关键词 近红外光谱;腹泻性贝毒;贻贝;多层感知机;光谱预处理第一作者:博士,副教授(通信作者,:)基金项目:广东省自然科学基金项目(;);国家自然科学基金青年科学基金项目();岭南师范学院红
3、树林研究院课题();岭南师范学院人才专项();岭南师范学院自然科学研究项目(;);广东省哲学社会科学规划学科共建项目()收稿日期:,改回日期:随着人们生活水平的提高,海鲜产品已成为人们生活中的必需品。贻贝因含有大量的蛋白质和丰富的矿物质,而且具有抗炎、解毒等功效,广受人们的欢迎。贻贝属于双壳软体类动物,通常生活在近海靠近河口岸边。近年来,海洋水体污染日趋严重,水体富营养化,导致赤潮频繁发生,赤潮藻类毒素泛滥。贻贝滤食被毒素污染藻类,使得毒素在体内富集。当人类食用了大量被污染的贻贝时就会严重中毒。腹泻性贝毒(,)是常见且危险性较大的藻类毒素,食用后产生头疼、腹痛、呕吐和腹泻等中毒症状。鉴于贝毒严
4、重危害着人们的身体健康,开发快速且准确地检测贻贝中毒素的方法变得更加重要。目前,贻贝毒素检测主要采用理化方法。彭志兰等利用小鼠生物测定法对舟山海域的麻痹性贝毒进行检测,并与酶联免疫分析法测定结果比较。虽然这种方法很容易操作,但因杀害了许多动物而遭到动物保护者的抗议。酶联免疫分析法需要专门的试剂,成本较高。姚建华等利用液相色谱串联质谱法(,)对贝类组织中的 种贝类毒素进行检测。作为一种高效的定性和定量分析方法,近年来受到越来越多的关注。然而,需要昂贵的参比物质,熟练的操作人员,而且仪器的维护成本高,阻碍了其广泛应用。这些理化方法可以检测出贝类毒素,但需要对样本进行复杂的预处理且具有破坏性,难以实
5、现大规模、实时、无损检测。因此,迫切需要找到一种快速、无损、低成本且操作简单的方法来检测贻贝中的毒素。近年来,近红外光谱作为一种检测速度快、无损,而且操作简单的方法,已被广泛用于食品质量和安全的检测中。李凯等利用近红外光谱(,)结合多种机器学习分类模型对 种葡萄酒品种进行鉴别,准确率最高为。夏吉安等利用 技术,采用人工神经网络模型和支持向量机(,)模型对蚕豆虫害等级进行鉴别,准确率分别为和。王劭晟等利用 技术结合 实现鳕鱼品种的二分类,准确率最高达到。上述 检测方法中分类模型主要采用、和偏最小二乘等机器学习算法,用以实现各类食品的检测,但分类准确率不高,而且训练数据集中的各类样本的分布基本是均
6、衡的。分析与检测 年第 卷第 期(总第 期)赤潮的发生有显著的突发性特点,而且一旦发生赤潮现象,海洋管理部门和人民政府会及时关闭养殖区,以防止意外中毒事件的发生。因此,对于本文所开展的利用 技术检测贻贝中毒素的研究,很难捕捞到自然环境下生长的含有毒素的贻贝样本,只能在实验室环境下,通过喂食利玛原甲藻培养受 污染贻贝样本。在毒素富集过程中,毒素在贻贝各组织器官中会发生吸收、同化、排除,组织间的转移等复杂的活动。经过这一系列同时发生又有相互重叠的代谢和转化等活动,贻贝体内毒素的含量存在不确定性,使得利用 技术进行贝毒检测具有一定的难度。目前,这方面的检测研究少有报道。但是,受毒素污染贻贝样本在毒素
7、的富集和转化过程中,其机体中的化学成分和含量与未污染贻贝样本相比有很大不同。两种样本在特定波长处对相同光的反射率不同,这种差异会体现在近红外反射光谱中,从而为利用 技术实现贻贝毒素检测提供了可行性。另外,实际检测的样本集中可能大部分是未污染良好的贻贝,受 污染的贻贝只占小部分,这是一个类别不均衡问题。因此,贝毒污染检测研究不能直接地简单移用现有的 检测方法。本文探究 污染贻贝和未污染贻贝的 光谱曲线差异及变化规律,针对数据集中训练集所占比重不同、小样本及样本类别不均衡的问题,构建一个具有较好泛化能力和鲁棒性的多层感知机(,)分类模型,以期为贝毒快速、准确检测提供一种可行方法,可保障海产品质量安
8、全,具有重要的现实意义。材料与方法 样品制备和光谱采集贻贝是从中国广东省湛江市的寸金市场购买的。将贻贝放入 个规格为 ,容积为 的塑料箱中暂养。一组贻贝在海水中养殖,不添加任何毒素,在整个实验过程中,连续适量充气,每日换水,维持水温 ,每天用 光合细菌喂养,以维持贻贝正常的生理活动。另外一组贻贝每天定期投喂 浓度为 的利玛原甲藻,每天全量换水 次,让 在贻贝样本中充分积累,喂养期间连续适量充气,保证溶氧以及形成水流。后从 个塑料箱中分别取出所有贻贝,挑选出未污染良好的和污染的贻贝各 个,对 个样品开壳,进行光谱采集。采集系统如图 所示,该系统由中国台湾 光电子有限公司生产的 近红外光谱仪、光纤
9、、光纤探针、载物台和计算机组成。为了降低噪声,对光谱仪器提前进行黑白校正。将 污染的贻贝和未污染的贻贝开壳样本分别放到载物台上,将光纤探针定位在贻贝肉的中心,扫描 次,并将 次光谱采集的平均值作为该样本的,将采集到的样本光谱传输到计算机中。光谱波长在 ,包含 个光谱波段。图 近红外光谱采集系统 光谱预处理算法光谱采集过程中由于环境光及人为因素影响不可避免的产生噪声、基线倾斜等现象。通常要对原始光谱进行预处理操作,以提高光谱特性。本文分析、比较了多元散射校正(,)、一阶导数(,)、标准正态变量(,)和卷积(,)种预处理方法。用于降低样品形状不规则和样品表面的非特异性散射的影响。用来修正光谱数据中
10、的基线漂移现象,增强光谱与检测对象之间的相关性。能够消除由于散射和一些重叠峰引起的基线漂移的影响。可有效去除高频噪声信号,提高光谱数据的信噪比。算法如公式()所示,对光谱进行 预处理:()()式中:,和 为回归系数,为平均光谱。算法如公式()所示,对光谱进行 预处理:()()()()式中:为样本平均光谱;为第 条原始光谱,为食品与发酵工业 ()光谱波段数。算法如公式()所示,设光谱 (),对光谱进行 预处理:()()()式中:为波长。算法如公式()所示,对光谱进行 预处理:()()()式中:为窗口宽度。模型原理 是一种深度神经网络模型,具有很强的泛化能力,能学习和贮存大量输入输出模式之间映射关
11、系,而无需了解映射关系的具体表达公式。由输入层、隐含层和输出层构成,不同层之间是全连接的。神经网络结构如图 所示。网络的输入为,输出为,第 层的第 个节点到第 层第 个节点的连接权重为(),第 个节点的输出为(),偏移常量为,激活函数为(),则第 层神经元的输出为:()()()()(),()输出 为:()()()()()()()()()()()图 的神经网络结构图 为了更好应用 模型对实际问题进行分类,可以增加隐含层层数或者隐含层中神经元数量。一般情况下,一个隐含层足够解决任何非线性分类问题,只要有足够多的神经元数量。因此,本文的 神经网络模型采用的是一个隐含层的网络,隐含层神经元数量通过试验
12、确定。模型性能评估为了评估模型的泛化能力,利用(召回率)、(精确率)、(准确率)、(综合评价)和(受 污染样本识别误差)等指标评价分类模型的性能。定义如公式()公式()所示:()()()()()()()()()()()式中:,实际未污染样本预测为 污染样本的数量;,实际 污染样本预测为未污染样本的数量;,实际未污染样本预测为未污染样本的数量;,实际 污染样本预测为 污染样本的数量。指标、表示检测模型对样本的查全率、查准率和正确率,对检测模型的综合评价,表示受 污染的贻贝样本检测错误的概率。指标、和 的值越高说明模型性能越好,最理想值为;越小说明模型性能越好,最理想值为。后续所有实验中每次建模运
13、行 次,取这 次运行平均值作为每种模型的最终评价指标值。结果与分析 光谱分析 个样本(个 污染样本和 个未污染样本)的原始 曲线如图 所示。由于两类样本属于同一物种,它们的光谱曲线的形状相似。污染和未污染样本的平均光谱曲线如图 所示。可见,样本和未污染样本的平均光谱反射率值在 波长内是存在差异的。未污染样本光谱反射率值小于 污染样本的光谱反射率值。只有 波长附近,种样本的平均光谱曲线几乎重叠,但对分类效果影响不大。当贻贝受到 污染时,会使蛋白质、酶和脂质等组织成分发生变化,这些变化会反映在光谱曲线上。两类样本光谱上的差异为区分 污染样本和未污染样本提供了可行性。分析与检测 年第 卷第 期(总第
14、 期)采集近红外光谱后,个 污染样本的贻贝肉被取出、冷冻,送往厦门海关技术中心检测。检测方法为 食品安全国家标准 贝类中腹泻性贝类毒素的测定 中的 法。检测结果 的含量为 。全部样本的光谱;两类样本的平均光谱图 贻贝样本近红外光谱曲线 光谱预处理实验结果与分析为了消除环境光及人为因素对采集光谱的影响,本研究利用、和 这 种算法分别对原始光谱进行预处理。种预处理后的贻贝光谱曲线如图 所示。为了检验 种光谱预处理方法的效果,将贻贝未污染样本 个和 污染样本 个构成的数据集按照 划分为训练集和测试集,将 种预处理后的光 谱 输 入 分 类 器 模 型、最 近 邻 模 型(,)和随机森林模型(,),这
15、 种分类器参数均采用默认值,实验结果如表 表 所示,其中,表示原始光谱。由表 可知,模型对 种预处理后的光谱和原始光谱的各项评价指标数值差距不大。对于 预处理后的光谱,模型取得了最高、和 的 值,为 仅低于具有最高 值的 预处理方法。对于 预处理方法,模型的 和 分别为 和 ,仅比最高值低 和 左右,但是 是所有预处理方法中最小的。其他 种预处理方法及原始光谱的 模型指标值各有高低。由表 和表 可见,和 模型对 预处理后的光谱有最高、的值,而且这 个指标值都在 以上,比较接近,远高于其他 种预处理方法及原始光谱对应的指标值;并且 和 模型对 预处理后的光谱有最小的 值,分别为 和 ,远小于其他
16、方法中的 值。预处理后的光谱;预处理后的光谱;预处理后的光谱;预处理后的光谱图 由 种预处理方法预处理后的光谱 食品与发酵工业 ()表 不同预处理方法的 模型评价指标 组别原始光谱 表 不同预处理方法的 模型评价指标 组别原始光谱 表 不同预处理方法的 模型评价指标 组别原始光谱 综上,应用 预处理后的光谱建模,、和 种检测模型的各项评价指标总体上都好于应用其他 种预处理方法预处理后的光谱及原始光谱建模。因此,本文选用 作为光谱预处理方法。检测模型参数分析与确定 分类器具有 个输入,个隐含层(神经元数量通过试验确定),个类别输出的 层全连接结构。权重和偏置采用 方法进行优化获取,激活函数为,最大迭代次数为 。隐含层神经元数量对分类准确率的影响如图 所示。基于 预处理的 分类模型()随着隐含层神经元数量变化准确率波动较小,原始光谱的 分类模型()随着隐含层神经元数量变化准确率波动较大。模型的分类准确率远高于 模型。两个模型都是在神经元数量为 个时达到各自的最高准确率,模型分类准确率最高为 ,模型准确率最高为。因此,本研究 分类模型的隐含层神经元数量取为 个。图 和 模型在隐含层不同神经元