1、第 卷,第期 光谱学与光谱分析 ,年月 ,基于 模型的多环芳烃拉曼光谱定量分析尹雄翼,石元博,王胜君,焦仙鹤,孔宪明辽宁石油化工大学人工智能与软件学院,辽宁 抚顺 辽宁石油化工大学石油化工学院,辽宁 抚顺 摘要芘作为多环芳烃()类物质广泛存在于自然环境中,亲脂性强,对人体有致癌影响。因此,食用油中芘的含量的判定对品质的把控具有深远的意义。采用拉曼光谱与人工智能算法相结合进行多环芳烃的定量分析是当前的一个研究热点。将一毫升食用油与不同固定浓度的芘液体混合制作样本,然后制作薄层色谱板与金粒子,采用薄层色谱和表面增强拉曼散射()光谱相结合的方法进行实验获得光谱数据,选取自适应迭代加权惩罚最小二乘算法
2、进行预处理,再采用 模型方法进行定量分析。该模型首先在预处理后的光谱中选取两个特征峰进行分峰拟合获取特征峰的高度、半高宽、面积等参数。将两个特征峰的拉曼数据与通过拟合获取的参数进行归一化再采用主成分分析获取关键参数,将获取的关键参数作为输入层输入基于 正则化的 神经网络中,输出预测浓度。实验分别采用不同的算法进行浓度预测,实验结果表明,通过偏最小二乘算法预测的芘浓度,其测试集决定系数为 ,均方根误差()为 ;采用线性回归拟合特征峰面积与浓度的规律最终预测的芘浓度,其测试集决定系数为 ,均方根误差()为 ;采用 模型预测芘浓度,其测试集决定系数为 ,均方根误差()为 ,模型预测精准度更高,误差更
3、小。模型是针对光谱数据信息与样本浓度之间非线性、高维度的关系,而建立的预测精度及建模效率均高于同类对比的算法模型。模型拟合特征峰获取关键变量,将关键变量与特征峰的拉曼位移都作为特征向量,因此特征向量较为充分,模型利用 提取拉曼光谱非线性特征并且采用基于 正则化 神经网络泛化力强的优点,防止过拟合,因此可以更加精准快捷地预测出芘的浓度。关键词芘;表面增强拉曼散射;薄层色谱;高斯拟合;神经网络;主元分析;预测中图分类号:文献标识码:()收稿日期:,修订日期:基金项目:辽宁石油化工大学纵向科研项目()资助作者简介:尹雄翼,年生,辽宁石油化工大学人工智能与软件学院硕士研究生 :通讯作者 :引言多环芳烃
4、()广泛存在于自然环境中,是由煤、石油等有机物不完全燃烧产生的。多环芳烃水溶性极低,亲脂性强,容易在生物体内富集,作为一种持久性有机污染物,具有很强的致癌性和突变反应。现阶段使用最多的 定量方法主要是气相色谱质谱法与高效液相色谱法,这两种方法虽然敏锐度较强,但分析仪器价格高昂、操作复杂,对使用环境的要求极高。然而在实际应用中,具有即时、方便、廉价特征的检测策略是多环芳烃检测的关键。光谱已成为一种强有力的检测技术,的一个独特优势是,可在痕量水平甚至单分子水平上分析物体分子结构的固有信息。这使得 成为一种功能强大的非破坏性传感技术,广泛应用于化学分析等领域。因此 拉曼光谱再结合人工智能算法检测食用
5、油中的多环芳烃是当前较为科学的一种方法,该方法充分利用了人工智能算法较强的计算能力与学习能力去发现光谱数据中潜在的规律。李爱民等 利用激光诱导荧光分光光度计采集了所有样品的三维荧光光谱,同时建立多维偏最小二乘()模型定量分析土壤中菲和蒽浓度。等 采用表面增强拉曼光谱与薄层色谱相结合的方法进行多环芳烃检测,再采用多项式模型进行多环芳烃化学物浓度的定量分析;陈新岗等 通过高斯函数分峰拟合获取特征峰的高度、面积、半高宽等关键参数,再采用偏最小二乘算法预测甲烷气体浓度。王聪等 通过特征峰面积与浓度建立线性关系预测浓度值。以上文献方法中,采用的算法无法完善地拟合出浓度与拉曼数据的非线性关系。为了满足芘含
6、量检测的高精度、高效率等要求,本文提出应用拉曼光谱技术结合 回归算法检测芘的浓度。模型充分利用 提取拉曼光谱非线性特征和 正则化 神经网络 预测能力 强,泛 化 性好的优点。实验部分 试剂柠檬酸钠(,比利时 公司),氯金酸(,阿达玛斯试剂公司),和硝基苯甲酸(,北京伊诺凯科技有限公司),芘(,国药集团化学试剂公司)。实验中所用的己烷、氯仿和乙酸乙酯均为分析纯,羧甲基纤维素(,上海梯希爱化工贸易有限公司)和硅藻土。食用油是从当地超市购买的,所有实验均使用超纯水。增强基底的制备用于制备金纳米颗粒()的玻璃器皿首先在王水(,:,)中浸泡 ,然后用超纯水清洗。通过柠檬酸钠还原法制备。将 ()水溶液在搅
7、拌条件下加热回流。然后,将 柠檬酸钠()快速加入回流的溶液中,继续回流 ,冷却至室温。制备完成的球形金纳米粒子,直径范围为 至 。方法将一毫升食用油与固定浓度的芘溶液点在硅藻土板上,距离薄层色谱板底部 。在室温条件下,将其垂直放入流动相中进行样品分离,然后使用紫外灯()与碘色法追踪分析物的位置,计算保留因子。然后将浓缩 倍金纳米粒子沉积在分析物斑点上。利用 作图。为了现场快速检测,我们使用 的激发激光的便携式拉曼光谱仪(;,),激光功率为,积分时间,将拉曼光谱数据保存到 文件中。光谱预处理由于采集到的原始光谱图上存在很多噪声,因此,对光谱数据进行进一步的分析之前,需要对光谱数据进行基线矫正和降
8、噪等处理。通过对比 平滑滤波、小波变换和自适应迭代加权惩罚最小二乘等方法,其实验结果为自适应迭代加权惩罚最小二乘预处理的方法结果最好,如图所示。该方法是在惩罚最小二乘的基础上,通过在迭代过程中自适应地调节拟合基线与原始信号之间残差平方和的权重,快速灵活地找到不规则变化的基线并予以扣除。随机选取条原始数据使用自适应迭代加权惩罚最小二乘进行预处理,结果如图所示。图预处理算法结果比较图 图光谱预处理图 模型拉曼光谱进行物质的定量分析是一个热门研究问题,以往采用的方法无法完善地拟合化学物质之间的非线性关系。为此本文方法充分利用 提取拉曼光谱非线性特征和 神经网络预测能力强的优点,提出一种 的拉曼光谱预
9、测模型,具体算法流程如下:()对拉曼光谱的特征峰进行分峰拟合,采用高斯函数作为基础算法,拟合获取其峰的关键信息如高度、半高宽、面积,根据拟合程度,修改高斯拟合函数中参数初始值或者重新选择特征峰对应的起点与终点;()对以拉曼位移作为特征变量的拉曼强度值与高斯拟合获得的参数组成的数据进行归一化处理;()使用主成分分析的方法处理归一化后的数据,进行降维提取关键参数;()将训练样本的关键参数输入到 神经网络进行训练,采用梯度下降算法,并初始化权重值与偏置值,为了提高泛化能力采用 正则化优化 神经网络;并且可以根据预测值的误差修改主成分个数、网络中的参数,获得最优网络结构,最终进行浓度预测。多参量选取与
10、特征峰分析光谱学与光谱分析第 卷如图显示了不同浓度的拉曼光谱,从图中可以明显地看出 拉 曼 位 移 范 围 与 有明显的波形,主要是由于芳环的伸缩模式和 面内弯曲振动而造成的,因此属于芘的特征峰。为提高浓度的预测精度,从图形中获取特征峰的一些关键参数。光谱图中每个谱峰都具有明确的物理意义且携带不同 的 物 理 信 息,在 与 范围内是芘的特征峰。在且考虑量子力学修正可知拉曼散射强度与样品单位体积内的散射分子数(样品浓度)成正比。式()中采用高斯函数对定位的两个谱峰进行分峰拟合,由式(),式()可获得各不同频移位置处谱峰的面积、半高宽和峰高等参数,得到特征量参数如表。()()()()()()()
11、其中,为拉曼散射强度;为拉曼频移;为拉曼谱峰高度;为谱峰中心偏移量;为谱峰半高宽。得到全部特征量参数如表。表光谱图高斯分峰拟合特征参数 序号峰峰 光谱特征提取与分析主成分分析()主要对数据的协方差矩阵进行特征分解,从而得到相应的特征值与特征向量,在实现数据维数缩减的同时保留数据的主体信息。研究中,由于特征向量较多,为了加快运算速率,所以利用 对 图范围为 与 的特征峰数据与拟合特征峰获得的高度、半高宽、面积等参数进行主成分分析。提取出关键的特征信息,降低维度,从图中可以发现,即保留个主成分以后其贡献率达到 。主成分选取的图主成分方差分析图 个数越多,包含的信息越全面。正则化 神经网络 神经网络
12、模型主要需要确定以下参数:神经网络的层数,输入层、输出层、隐藏层的节点个数,各层神经元的激活函数,训练方法。()参数初始化:权重值与偏置值使用正态分布生成初始值;()输入层:设置个神经元,为 算法获取的个特征参数;()隐藏层:设置 层,分别为 ,;()输出层:一个神经元代表浓度;()激活函数:激活函数采用 ,输入层到隐藏层与隐藏层内部均采用 函数,隐藏层到输出层采用全连接,无激活函数;()迭代优化器:函数,动量项的梯度下降法;()损失函数:均方方差损失函数();()正则化:正则化,主要进行权重值的修改。神经网络输入层表示为,()式()中,为输入层神经元的个数,为主成分分析获得的特征向量。随之隐
13、藏层第一层的的表达式为第期尹雄翼等:基于 模型的多环芳烃拉曼光谱定量分析()设()为输入层第个神经元第到隐藏层第一层第个神经元之间的连接权重;()为隐藏层第层神经元的偏置,那么由此可以推出()()()以及输出层的公式为()()式()中,为输出层的层数,()为从层第个神经元与层第个神经元之间的连接权重,代表第层的第个神经元,()为第层第个神经元的偏置,代表层的神经元个数。个训练样本的损失函数为()()式()中,为真实值,为预测值,样本个数。紧接着进行 正则化的损失函数 ()式()中,是一个超参数,范围,则是我们训练的深井网络中每一层的权重矩阵。根据损失函数反向修改权重的表达式()()()()进一
14、步可以推导出()()()()()式()中,为学习率。根据损失函数反向修改偏置量的表达式()()()()图神经网络结构图 结果与讨论 基于 模型算法的实验()采用了薄层色谱和表面增强拉曼散射()光谱相结合的方法已成功地用于从食用油样品中识别多环芳烃,拉曼光谱数据保存到 文件中;()使用自适应迭代加权惩罚最小二乘算法进行光谱预处理;()将光谱数据进行分峰拟合获取高度、面积、半高宽等关键参数;()数据集分成测试集与训练集,数据集可以描述为一个阶矩阵(),包含个长度为的光谱,其中是在 与 之间测量到的光谱点与两个峰对应的高度、面积、半高宽等参数,选取 条数据作为测试集;()将高斯拟合的参数与两个峰的特
15、征变量进行归一化,再进行主 成 分 分 析,依 据 结 果 误 差 依 次 进 行 调 整 主 成 分个数;()最后将主成分分析获得的特征参数输入基于 正则化 神经网络进行训练,获得最终的预测浓度。最终基于 模型预测出来的芘浓度的预测值与真实值的均方根误差为 ,说明真实值与预测值两者的数值十分接近,预测的浓度相对精准。光谱学与光谱分析第 卷 模型结果分析为了评价模型的性能,分别使用相对决定系数和均方根误差()对模型的预测精度进行了分析。()()图测试集芘预测浓度与真实浓度之间的关系 图真实值与实测值对比 ()(?)()式()中,?为真实浓度的平均值。从图可以看出,模型预测值与真实值的函数表达式
16、为 ;偏最小二乘的表达式为 ;()的 函 数 表 达 式 为 。表模型对比表 模型 根据图和表中,三种算法的对比,其中 的决定系数最接近,拟合的线性回归方程最优,预测值与真实值的斜率接近为,从图中和表中可以发现 的预测值与真实值距离最为相近,其次是 ,的预测值与真实值相对较 远,均方根误差最小为 ,算法的均方根误差为 ,的均方根误差为 。从以上的图表中则可以看出 算法的预测最为精准。模型相比于 算法能够较好提取光谱的非线性特征,相比于 算法具有较好的泛化能力与较强的预测能力,因此 模型可以更加准确快速地检测出多环芳烃的浓度。结论开展了芘定量分析研究,通过 模型预测芘的浓度。相比于使用的偏最小二乘,线性回归等方法,本模型的算法取部分特征峰数据简化了运算的复杂程度,添加了其他重要的参数变量,充分提取了光谱的非线性特征,正则化的 神经网络又具备较强的泛化能力。但是 神经网络相对还是较为简单,无法更为准确地得到光谱数据与浓度之间的关系。未来可以选取更为精确的神经网络模型进行相关浓度的预测。,等(张婷慧,宇洁,叶张林,等)(测绘科学技术学报),():,(饶利波,庞涛,纪然仕,等)(激光与光电子学