1、第 卷,第期 光谱学与光谱分析 ,年月 ,基于高斯混合模型扣除毛发 信号中增强基底的背景峰李伟,何遥,林东岳,董荣录,杨良保安徽大学物质科学与信息技术研究院,安徽 合肥 中国科学院合肥物质科学研究院健康与医学技术研究所,安徽 合肥 摘要在利用表面增强拉曼光谱()对毛发中痕量物质进行分析时,该 信号中毛发特征峰与增强基底背景峰会相互耦合。在耦合情况下,背景峰会被误识别为毛发特征峰,导致待测物的识别错误,此外具有高峰强特性的背景峰对毛发中微弱特征峰产生掩盖干扰。因此,背景峰的扣除是解决上述问题的重要途径,但常规的扣峰方法会导致周围邻峰的严重失真。针对上述问题提出了高斯混合模型,该模型在表征 信号的
2、同时又使得各特征峰相互独立,在扣峰过程中对周围邻峰不产生干扰,既实现干扰峰的扣除又保证了邻峰的微失真。高斯混合模型的核心问题在于模型参数的求解,文中提出了小波变换与共轭梯度法,分别解决模型的初始参数问题及最优解问题。小波变换通过映射放大 信号的细节信息,充分提取该信号的细微特征信息,将该特征信息作为模型的初始参数。其中共轭梯度法是迭代优化方法,将模型参数进行循环迭代优化,最终收敛结果即为模型参数的最优解。综上两种方法可准确建立高斯混合模型,模型中单高斯函数为 信号的特征峰,且两者的峰形保持一致。在扣除 信号的背景峰时应遵循以下过程,包括有效数据的提取、模型建立和峰的扣除。其中有效数据的提取是对
3、空白与滴样的增强基底进行同位置检测,由此得到一组 信号。模型建立是通过高斯混合模型对滴样 信号进行表征,该信号可由多个高斯函数表现。最后利用空白增强基底的特征峰对滴样的 信号进行指认,其中峰形相似且峰位相同的特征峰可扣除。实验结果表明,方差值比最小时,高斯混合模型的峰位、峰宽、峰强等特征与毛发 信号基本相同,此时高斯混合模型可准确表征毛发 信号的特征信息。在对组毛发进行扣峰实验时,毛发 信号中背景峰扣除率达到 ,同时毛发的特征峰也得到有效提取。在对真实毛发样本进行快速分析时,该模型识别出了毒品曲马多。关键词表面增强拉曼光谱;高斯混合模型;共轭梯度法;小波变换;背景峰扣除中图分类号:文献标识码:
4、()收稿日期:,修订日期:基金项目:国家自然科学基金重点项目(),安徽省重点研究与开发计划项目(),北京市现场物证检验工程技术研究中心开放课题()资助作者简介:李伟,年生,安徽大学物质科学与信息技术研究院硕士研究生 :通讯作者 :;引言根据公安部发布的 年中国毒情形势报告,截至 年底,中国现有吸毒人员 万名,其中以冰毒、海洛因为常见毒品类型,大麻吸食人数逐年上升。吸食毒品不仅损害吸毒者的身心健康,也给家庭和社会带来严重危害,如暴力伤害他人,因此毒品检测对于禁毒工作至关重要。毒品检测常以血液、尿液、毛发等生物检材作为检测对象,其中毛发具有易获取易保存等特征,优于其他生物检材。毛发中毒品检 测 的
5、 常 用 方 法 包 含 有 气 相 色 谱 质 谱 联 用()、液相色谱质谱联用()、毛细管电泳等,这些方法在前处理、检测时间、专业操作等方面提出了较高要求,具体表现为复杂性高、时间长、需专业人员操作等问题。近年来,表面增强拉曼光谱技术因可以实现对目标分子的痕量检测而一直备受关注,其具有无损伤性、指纹特征、可重复性和高灵敏度等显著优点,尤其在案发现场对可疑物进行高灵敏、简便及快速检测,特别在毒品检测领域得到广泛应用,可检测出毛发中冰毒、氯胺酮及曲马多等毒品。表面增强拉曼光谱(,)的增强原理是来自于贵金属(金、银等)纳米材料(即增强基底)产生的电磁场增强,以及吸附分子与纳米材料之间电荷转移产生
6、的化学增强。但在实际测试中,通过化学合成方法制备的增强基底会使用大量的表面活性剂,因此产生大量无用 的 背 景 信 号。例 如,以 十 六 烷 基 三 甲 基 溴 化 铵()为表面活性剂合成的金纳米棒()的背景信号会对毛发及毒品特征峰产生干扰,具体表现为背景信号特征峰对待测物的特征峰产生“掩盖”与随机峰的干扰。其中背景信号的“掩盖”,具体表现为表面活性剂 会在 与 位置产生两个高峰强的特征峰,在检测低浓度待测物时,待测物的特征峰直接被背景峰抑制。背景信号的随机峰干扰,表现为不同增强基底在峰个数、峰强度具有随机性。在毛发检测中 信号是背景峰与毛发特征峰发生耦合,对待测物的特征峰识别产生干扰。因此
7、,需要微失真的扣峰方法,对光谱中增强基底的背景峰进行扣除,降低背景峰对毛发有效信号的干扰。为实现扣峰法的微失真特性,需要为 信号建立准确的数学模型。在对 信号进行数学建模时,常用的基函数是 函数,该函数对特征峰的波形具有较好的匹配性,但该函数的解析参数含有个,其中半高宽参数提取易受 信号群峰干扰,其次高斯洛伦兹参数只在该函数中出现,增加模型复杂度与计算量。为获得准确的数学模型,需要模型的参数邻近于 信号的特征信息(峰位、峰强等),其中检验法利用提取其中的半峰宽、峰面积等特征信息作为模型初始参数,但在该寻峰条件下弱峰识别无法保证,其次 信号中耦合峰的半峰宽与峰面的提取易被干扰,最终导致模型的初始
8、参数赋值存在差异,准确度难以实现。同时初始参数的赋值也可提升模型的准确度,故建立准确的数学模型需要最优参数解,其中牛顿法是常用的参数优化方法,二阶求导可使其迭代结果快速达到收敛条件,但其较大计算数据量无法规避,特别对于 信号这类的复杂峰,该方法的运算效率急剧下降。选择高斯混合模型扣除 信号中背景峰。高斯混合模型的基函数与 信号的特征峰高度拟合,可表征出该信号的 所 有 特 征 信 息。为 建 立 该 模 型 需 要 借 助 小 波 变换,对特征信息(峰位、峰宽)的提取具有高灵敏性,可为模型提供初始参数,并且也可为移动窗口型相似度法()公式提供 峰 宽 数 据,计 算 出 峰 形 相 似 系 数
9、,确 定 待 测 物 信号的背景峰。对于模型参数的最优解,依托于共轭梯度法的迭代收敛解,利用参数的最优解向量建立的高斯模型可分离重叠峰,实现对背景峰的滤除,且保证邻峰的微失真。采用上述方法对真实毛发样品的 信号进行处理,实验结果显示,信号中 的两个高强度特征峰被完全扣除,同时毛发的特征峰也得到有效提取。基于高斯混合模型扣除背景峰的方法毛发样本的 信号中背景峰扣除遵循以下过程,如图所示。()有效数据的采集。先后进行两次 信号采集,分别对空白与滴样的增强基底进行检测,检测时利用卡槽(固定装置)固定载样平台,固定激光器探头,可保证两次采集位于同一位置。()光谱数据处理与分析。通过滤噪算法 与 基线校
10、正算法 对光谱进行预处理,其中光谱分析采用小波变换、求导等方法实现对 信号特征信息提取,包括特征峰的峰位、峰宽、峰强、峰数量等信息。()多 峰 耦 合 辨 别。基 于 移 动 窗 口 型 方 法 计 算 特征峰的峰形系数,扣除非耦合型背景峰,避免待测物的有效特征信息被扣除。()信号中背景峰的扣除。该过程依托高斯混合模型与共轭梯度法实现群峰分离与独立化,实现多数背景峰的扣除,且规避周围邻峰失真的现象。图 信号中增强基底背景峰的扣除流程图 峰信息的提取 信号的特征提取主要采用小波变换与极值求解,获取光谱信号的基本特征数据,其中包括光谱特征峰的峰位、峰宽和峰强。在特征提取中连续小波变换算法具有信号放
11、大特性,其尺度参数的合适选择有助于凸显信号的细微变化,故利用小波变换的此特性对 信号进行放大,以表征信号中细微信息变化。一维信号的连续小波变换公式(,)(),()()()()式()中,()为小波函数,参数为小波函数的尺度参第期 李伟等:基于高斯混合模型扣除毛发 信号中增强基底的背景峰数,参数为平移参数,()为小波基函数,不同的小波基函数选择直接影响光谱细节信息的放大。其中 小波基是由高斯函数二阶求导得出,波形具有高斯函数特征,与 特征峰具有相似性,故选择 函数作为小波函数,小波基公式如式()()()()基于上述小波变换方法提取 特征峰信息。利用小波变换求解出目标物 信号的变换信号,通过对变换信
12、号进行极值求解,得到相应的极值点,其中极大值点经峰位校正后是特征峰的峰位,极小值为特征峰的峰宽始末点。以下为 信号特征信息提取具体流程:()放大信号,求峰顶与峰谷位置。对 光谱信号()进行小波变换为(,),并进行极值求解,极小值记为,极大值记为。()准确峰位计算。对 光谱信号()进行极值求解,记为。()峰位校正。对比两个极大值集与,其中元素差的绝对值小于参数,则集内元素为 信号峰位准确值。()峰 宽 始 末 位 置 判 别。对 于 满 足 条 件(),则峰宽记为()。多峰耦合辨别拉曼光谱仪检测的 信号包含背景峰与毛发特征峰,两者相互耦合,现需从耦合峰中识别出背景峰。背景峰的识别依托于两次信号采
13、集,即分别对增强基底与毛发样本进行 信号采集,将两组数据置于同一拉曼位移空间进行对比,根据增强基底的 信号指认毛发样的 信号中增强基底背景峰。背景峰辨别重点在于背景峰是否包含有毛发的特征信息,若该特征峰是由背景峰与毛发特征峰高度耦合而成,并且不能分离,则该耦合峰予以保留,故背景峰的显著特征为不含毛发的特征信息。通过以下步骤辨别背景峰:()峰 位 相 同,即 两 信 号 在 同 一 拉 曼 位 移 处 出 现 特征峰。()峰形变化的相似性比较。若两信号在同一位置出现特征峰,就会有耦合效应,背景峰会因毛发特征峰的叠加而产生波形畸变,故波形变换是耦合峰判断的重要依据。计算出两信号的峰宽并集,即两信号
14、的最小峰宽范围,如式()()式()中,代表峰宽交集长度,与分别代表背景峰的峰宽与毛发中某特征峰的峰宽。移动窗口型 公式计算局部区域内两信号形状变化的相似系数,如式()(?)(?)(?)(?)()式()中,为 待 测 物 的 信 号,为 增 强 背 景 的 信号,?为相应信号强度的均值,为移动窗口宽度。高斯混合模型分离重叠峰毛发 信号中背景峰以独立峰与重叠峰形式显现,针对独立峰情况,无需考虑邻峰干扰,对于重叠峰而言,暴力扣除直接导致邻峰的严重畸变。针对峰失真问题,需要重叠峰分离算法,将重叠峰分离成多个独立峰,且峰间相互独立,有效抑制峰间干扰。重叠峰分离算法是对毛发 信号进行数学建模,该函数模型可
15、表征拉曼光谱的特征信息,而数学模型建立需要解决两个问题,即模型的选择与模型参数的求解。首先,信号的数学模型选用高斯混合函数,该函数的基函数为高斯函数,参数少且易计算,依托于函数波形与 信号特征峰高度拟合,再通过对模型初始参数的合理性设置,可表征 光谱的所有特征信息。同时,为降低该模型计算的复杂度,需要拉曼光谱的特征信息等先验知识,进而实现数学模型的量化。量化型高斯混合模型公式如式()()()()式()中,参数由先验知识进行量化。高斯混合模型参数的最优解可让模型极限接近 光谱,故模型建立的根本是模型自身参数的优化问题,采用共轭梯度法优化该模型,如式()(,)()式()中,为高斯混合模型的参数向量
16、,为参数向量的梯度方向,参数向量的共轭梯度方向。该优化方法基本原理是循环迭代逼近最优解,达到阈值后中断循环,输出最优解。为降低优化方案的计算量与复杂度,需要已提取的峰位、峰强等特征信息对循环体初始参数进行赋值,使循环体初始参数接近最优值。实验部分 试剂金纳米棒增强基底;真实毛发样本(安徽省公安 厅提供);氢氧化钠(国药集团化学试剂有限公司);环己烷(国药集团化学试剂有限公司)。仪器检测仪器:手持拉曼光谱仪(,安徽中科赛飞尔科技有限公司);分析平台:软件,操作系统为 ,内存,计算机 处 理 器 为 ()()。毛发前处理()取 发根毛发,剪碎至,加入 离心管。()向离心管中加入 的 溶液,加热 裂解。()滴加 环己烷,剧烈振动,进行萃取,然后 离心 。()吸取上层清液,滴加至增强基底表面,等待干燥。光谱数据采集有效数据的采集是分别对空白与滴样的增强基底进行检光谱学与光谱分析第 卷测,获得的数据分别为增强基底的 信号与毛发样本的 信号,两者为有效数据组。采集积分时间为 ,激光功率为 ,识别方法选择特征峰匹配,信噪比设置为 。组检测数据如图(,)。图增强基底()和毛发()的 光谱数据 ()()