1、第 卷,第期 光谱学与光谱分析 ,年月 ,卷积神经网络的紫外可见光谱水质分类方法陈庆,汤斌,龙邹荣,缪俊锋,黄子恒,戴若辰,石胜辉,赵明富,钟年丙重庆理工大学光纤传感与光电检测重庆市重点实验室,重庆 重庆大学光电技术及系统教育部重点实验室,重庆 摘要水质污染源的及时精确定位和精细化的污染防治措施是打赢水污染防治攻坚战的迫切需求,为解决地表水实际水样高锰酸盐指数准确分类的实际问题,以光谱降噪和光谱有效信息提取为切入点,根据紫外可见光谱数据的特点,提出使用一维卷积神经网络处理紫外可见光谱数据。为验证检测一维卷积神经网络对地表水光谱信号分类的可行性,选取长江的某段流域作为取样点。采集当天的长江上游水
2、、某河水、嘉陵江水,生活污水、邻苯二甲酸氢钾溶液来模拟污染水源。将几种水样按不同的配比来模拟当天该流域的水污染变化情况。采集现有的单一水样及混合配比水样的光谱数据,根据各类水样的特征光谱信息进行区分,实现地表水高锰酸盐指数的预测分类,快速确定异常水样的污染来源,通过仿真实验,优化模型参数并完成优化训练。与最邻近法、支持向量机等传统分类方法相比,该算法在光谱预处理复杂度和定性分析准确度方面有较大优势,在没有复杂的数据预处理前提下,将获取的 条光谱数据建立水质分类模型,随机选择其中 条数据作为训练集,另 条数据作为测试集,模型的混淆矩阵分类精度达 。不仅简化了整个光谱分析流程,而且能保留更多的有效
3、光谱信息,减小人为预处理对紫外可见光谱数据的影响,实现地表水高锰酸盐指数的准确分类。实验结果表明该方法可对不同水体水样进行准确分类,快速定位污染源,为无法激发荧光的污染物溯源提供了科学依据,为与三维荧光技术辅助配合快速精确定位地表水污染源提供了可能,同时表明了深度学习在紫外可见光谱法测量实际水样领域有着巨大的应用潜力和研究价值。关键词水质;紫外可见光谱;一维卷积神经网络;分类中图分类号:文献标识码:()收稿日期:,修订日期:基金项目:国家自然科学基金项目(),重庆市教委科研基金项目(),重庆市高校创新研究群体项目()资助作者简介:陈庆,女,年生,重庆理工大学电气与电子工程学院硕士研究生 :通讯
4、作者 :引言“绿水青山就是金山银山”。随着我国全面步入小康社会,在国家对于水污染防治工作的大力支持下,水环境状况取得了较大改善,目前已进入攻坚克难阶段。污染源的及时精确定位和精细化的污染防治措施是打赢水污染防治攻坚战的迫切需求,更是生态环境治理体系的大趋势。目前,污染溯源主要基于三维荧光的水污染预警溯源技术,通过激发光和发射光光谱信息来获得污染物的指纹图谱,对物质特征进行识别从而达到污染源预警溯源。三维荧光技术常用于检测水质溶解有机物(,)。然而,并不是所有污染物都能被激发出荧光,但不同的污染物在紫外可见光谱中都有其特征光谱;紫外可见光谱法作为一种环境友好的监测分析方法因为其快速便捷、低成本、
5、高灵敏度、可实现在线监测等特点而被广泛应用在水质监测领域。因此可将紫外可见光谱法与三维荧光光谱法辅助配合用于水污染源的精确定位。用于衡量 有 机 物 对 水 体 污 染 程 度 指 标 的 化 学 需 氧 量(,),分为检测工业废水的化学需氧量()和检测地表水的高锰酸盐指数()。众所周知,光谱信号抗干扰能力较弱,易受系统噪声和悬浮物散射等噪声的影响,且存在信息冗余、多重共线性等不足;地表水 在线检测分析过程通常较为繁琐。在建立预测模型之前,需要将光谱数据进行有效的光谱特征提取和降噪。大量学者已经展开了相应研究,提出了使用逐次投影算法、遗传算法、粒子群优化算法等多种智能算法融合成新型算法来选 取
6、 有 效 特 征 波 长,为 后 续 的 预 测 模 型 提 高 了 精度。侯迪波等提出了非对称最小二乘(,),进行基线校正减弱了光谱基线的漂移。上述算法均取得了不错的效果,但这些研究工作大多集中于光谱数据预处理和有效特征波段的筛选,光谱定性分析方法研究较少。据此,亟需一种精确的实时光谱数据定性分析方法,其关键难点在于简化光谱数据的预处理复杂度的同时保证光谱预测精度。近年来,深度学习广泛应用在图像、音频、情感识别等分类识别模型中。卷积神经网络(,)作为其核心算法已被用来解决多分类问题、定性分析问题和数据挖掘问题,与传统分类方法相比,模型泛化能力强,抗噪声干扰性能也更强。陈化洲等设计了浅层卷积神
7、经网络架构来建立评估水污染光谱模型。余路等提出的自适应一维卷积神经网络(,)算法来检测轴承故障,故障识别准确率高达 以上。综上所述,模型学习和分类能力远超其他传统方法,且具有广泛的适用性,因此将其应用在水质紫外可见光谱定性分析上具有坚实的理论基础和可借鉴性。基于此,提出一维卷积神经网络(,)和紫外可见光谱分析结合的方法,通过采集不同水样的紫外可见光谱数据,建立好不同水质分类模拟平台,使用一维卷积神经网络构建分析模型,优化模型参数并完成优化训练,最终得到精确的 分类结果。在此从光谱信号有效特征提取与降噪两个方面讨论算法的优势和特点。分类网络 卷积神经网络卷积神经网络作为一种深层前馈网络,常用于处
8、理多个阵列数据,例如时间序列、图像和音频频谱图等。典型的卷积神经网络由卷积层、池化层和全连接层构成,各层都有不同的功能。卷积层通过卷积核使输入向量卷积,生成特征向量,同一特征值中的全部单元共享相同的滤波器。池化层位于卷积层后面,分为最大池化和平均池化,对输入的特征信息进行压缩,简化网络计算复杂度。光谱信息经过卷积层和最大池化层的运算,网络模型有效提取原始光谱数据中无法直接获取的局部和全局特征,并将提取的特征输入全局平均池化层转换为向量,全连接层用于将输入转换为向量,并实现分类功能。卷积神经网络的结构体系主要由两部分组成,即特征提取器和分类器。特征提取器通常由若干个卷积层堆叠和一个最大池化层组成
9、,分类器通常是一个全连接的 层。常用的卷积神经网络有 、和 等。分类网络搭建由于 网络具有结构简单、应用性强和识别率高的特点,本工作参照经典卷积神经网络 模型进行网络结构的改进和参数优化。根据紫外可见光谱数据的特性,提出了 水质定性模型,对不同水质进行分类。网络各项参数如表所示,由光谱信号为 矩阵作为输入,个卷积层(),各层卷积核大小为,个最大池化层(),个全局平均池化层(),个输出层()构成。每两个卷积层后面接一个最大池化层,在输出层前接一个全局平均池化层来减小参数量,对特征信息进行压缩,减小网络计算复杂度。为避免过拟合,提高泛化性能,在 池 化 层 网 络 后 加 应 用 比 例 为 的
10、随 机 失 活()。为了进行水质多分类,输出层采用多分类 结构输出。表 网络各项参数 层类型卷积核大小卷积核数量步长输出形状神经元个数参数量 合计 分类网络训练数据集按比例划分为两个部分,为训练集用于训练神经网络权重神经元,为测试集用于测试已训练后的神经网络性能。在训练 模型过程中,可以不划分子问题,直接将其整个网络模型当作一个复杂的函数求全局最优图反向传播算法训练 模型整体流程 光谱学与光谱分析第 卷解问题。如图所示为反向传播算法来训练 网络模型的整体流程。卷积神经网络的训练和优化依赖于损失函数,损失函数用来表达预测值和真实值间的误差,经过反向传播算法将误差从最后一层反向传播到卷积网络的各层
11、并更新各层的权值。更新后的参数继续参与训练,循环往复,在训练过程中将其最小化,以便衡量当前任务完成的进展。所以选择合适的损失函数是一件重要的事。本文属于多分类问题,因此选用 来解决多分类输出,对 模型的训练采用交叉熵损失函数,其表达式如式()所示 ()()式()中,为种类数量,为如果类别是的标签,则,否则为,为类别为的神经网络输出概率。损失函数的下降采用 优化器,其学习率设置为 ,为了使 模型能有序的参数更新和快速收敛,训练样 本 被 分 成 多 个 批 次(),其中批处理 样 本 数 目()设为。实验代码采用 编写,模型基于 框架,硬件环境 型号为 ,系统环境 中 配 置 了 ,等 三方库。
12、实验部分 水质 检测系统水质检测 系 统 核 心 为 生 产 的 光谱仪,如图所示,系统主要由氘卤灯光源,衰减器,样品支架,光谱仪及安装了采集控制软件的 组成,为避免环境光对测试结果的影响,保证采集环境一致性,测量全程都有特制的样品支架进行遮光处理。经过多次采集和实验,设置积分时间 ,平均扫描次数为。图水质 检测系统 样品如图为重庆某长江流域取样点的地理方位示意图,假设为模拟监测站点,在点实际取样,点为模拟污染源,用浓度为 的邻苯二甲酸氢钾溶液和生活污水模拟实际污染源。图某流域取样点示意图 将采集的长江上游水、某河水、嘉陵江水、生活污水、邻苯二甲酸氢钾的水样来模拟当天流域的情况。模拟水样与实际
13、水体会存在一定偏差,通过实地采集样品,尽可能减小两者间的差距。用卷积神经网络模型训练需要大量数据,采用模拟水样不仅可以增加样本数据集,同时也能增强模型的泛化能力。将各种水样按一定比例配比用于模拟水域污染源变化情况如表所示。表水样配比情况 水样类别长江水某河水嘉陵江邻苯二甲酸氢钾()生活污水 长江水、某河水 长江水、某河水、嘉陵水、生活污水 长江水、某河水、嘉陵江、邻苯二甲酸氢钾()长江水、某河水、嘉陵江、生活污水、邻苯二甲酸氢钾()长江水、某河水、嘉陵江其中类别为长江上游水,类别为某河水,类别为嘉陵江水,类别为模拟化学废液的邻苯二甲酸氢钾溶液,类别为生活污水,类别为某河水和长江交汇处,类别为由
14、于生活污水排放而 含量超标的长江下游水,类别为由于化学废液排放 含量超标的长江下游水,类别为化学废液排放和生活污水排放 含量超标的长江下游水,类别为 未超标的长江下游水。如图为各类第期陈庆等:卷积神经网络的紫外可见光谱水质分类方法水样原始光谱图,可以观察到不同水样由于所含物质不同其光谱特征曲线具有明显差异,而污染源一样的水样具有类似的光谱特征峰,如类别,和相似,类别,和相似,类别和相似。图不同水样原始光谱图 结果与讨论 基于 的水质定性分类模型建立的 水样分类模型,能够根据污染物的特征峰对实验水样较为精确的分类,训练过程中训练集和测试集的损失函数值下降曲线与分类准确率变化曲线如图所示。图模型的
15、准确率变化曲线和损失函数下降曲线 当确定为哪一类水后就能清楚是何种污染物排放超标,从而缩小监测范围,准确溯源到污染源。如图所示为各类水样分类的混淆矩阵结果,用测试集的 条光谱数据来做混淆矩阵检测,可以观察到除了第类水识别效率不高外,其他水样准确率达 。类水和类水都有其各自明显的特征光谱峰,可以很清晰的将其区分,第类水识别准确率仅,与第类水识别相混淆,混淆矩阵中分类准确率达 。因此,如果在下游监测到 含量超标后可以较为精准的定位污染来源,为流域的实际污染情况溯源提供依据。图混淆矩阵检测结构 不同分类算法准确性比较采用近邻(,)、支持向量机(,()()、一维卷积神经网络()三种分类方法来对不同水样
16、的光谱数据进行分类处理。由于光谱的不稳定性和实际水样的复杂性,利用传统的分类算法需要对光谱数据进行有效的降噪和特征提取。以原始光谱数据、降维光谱数据以及经平滑滤波处理后的三种紫外可见光谱数据为实验对象,来验证 模型对不同水样的定性分析结果。将以上三种分类算法对各类水样光谱数据分别实验,并记录分类准确率。分别利用 算法来提取光谱特征信息以及运用 滤波器对光谱信号进行平滑滤波处理以减小噪声干扰,实验结果如表所示。表不同算法的分类准确率 算法原始光谱数据 降维 平滑滤波 ()()由表所示,通过对以上三种分类算法的准确率比较得出,模型运用原始光谱数据分类结果最佳,可达到 ,不同的分类算法经过 降维特征提取和 平滑滤波后准确率都有不同程度的提高。其中分类算法准确率提升最显著的是经过 降维()分类器,由 提升至 。通过以上实验对比,紫外可见光谱经过数据降维特征提取和去噪平滑滤波光谱预处理后可以明显提升传统光谱分类算法的分类准确率。由于 模型用于处理大型数据集,且本身就能够对数据进行特征提取和数据降维,仅对原始光谱数据进行了去噪平滑,经过平滑滤波处理后其分类正确率光谱学与光谱分析第 卷没有太大变化。