1、书书书2023 年第 2 期仪 表 技 术 与 传 感 器InstrumentTechniqueandSensor2023No2基金项目:国家重点研发计划课题(2021YFB3200403);郑州市协同创新重大专项(20XTZX06013);河南省高等学校重点科研资助 项 目(20A460022);国 家 自 然 科 学 基 金 面 上 项 目(52171193);中国博士后科学基金(2021M692926);河南省科技攻关项目(222102310647)收稿日期:20220829基于特征提取与选择的气体识别研究陈博1,王刚1,2,师春雪1,齐国臣3,4,曹仰杰1,田辉1,4,卫荣汉1,3,4
2、(1郑州大学网络空间安全学院,河南郑州450000;2汉威科技集团股份有限公司,河南郑州450001;3郑州大学力学与安全工程学院,河南郑州450000;4郑州大学智能传感研究院,河南郑州450000)摘要:在电子鼻系统中,特征提取和选择以及分类模型都是其性能改进的关键。针对从传感器阵列中提取单一特征时会忽略传感器特异性的问题,提出基于相关性分析来选择每一个传感器最优的特征提取方法,组成最优特征向量进行气体识别,实验表明:通过该方式提取的特征向量在分类模型中表现更好,在各模型的平均识别准确率提升了 0027,其中支持向量机和人工神经网络提升效果最明显,分别提升了 0031 和 0054。并根据
3、模型特性和实际需求,提出逻辑回归与支持向量机结合的二次分类模型,实验表明该模型能够进一步提高分类准确率,降低具体气体检测场景中辨别气体错误的风险。关键词:电子鼻;传感器阵列;特征提取;特征选择;分类模型中图分类号:TP212文献标识码:A文章编号:10021841(2023)02000107esearch on Gas ecognition Based on Feature Extraction and SelectionCHEN Bo1,WANG Gang1,2,SHI Chun-xue1,QI Guo-chen3,4,CAO Yang-jie1,TIAN Hui1,4,WEI ong-ha
4、n1,3,4(1School of Cyber Science and Engineering,Zhengzhou University,Zhengzhou 450000,China;2Hanwei Electronics Group Corporation,Zhengzhou 450001,China;3School of Mechanics and Safety Engineering,Zhengzhou University,Zhengzhou 450000,China;4Institute of Intelligent Sensing,Zhengzhou University,Zhen
5、gzhou 450000,China)Abstract:In the electronic nose system,both feature extraction and selection as well as classification models are the keys toits performance improvementAiming at the problem of ignoring the sensor specificity when extracting a single feature from thesensor array,this paper propose
6、d to select the optimal feature extraction method for each sensor based on correlation analysis,andform the optimal feature vector for gas identificationThe experiment results show the eigenvectors perform better in the classifica-tion model,and the average recognition accuracy of each model increas
7、es by 0027,of which the support vector machine and artifi-cial neural network have the most obvious improvement,with an increase of 0031 and 0054,respectivelyAccording to the modelcharacteristics and actual requirements,a secondary classification model combining logistic regression and support vecto
8、r machineis proposedExperiments show that the model can further improve the classification accuracy and reduce the risk of gas identifica-tion errors in specific gas detection scenariosKeywords:electronic nose;sensor array;feature extraction;feature selection;classification model0引言在多种混合气体检测中,各种气体相互
9、之间存在的干扰会导致气体主要成分特征发生丢失或退化,使单个气体传感器检测到的气体特征不完整,不能实现对混合多组分气体准确迅速的检测。若将不同种类的单个传感器组成传感器阵列,可采集更多的特征进行判断识别,有效地提高单个传感器的识别准确度,降低传感器存在的交叉敏感的概率,完成对混合气体组分的辨识1。由气体传感器阵列与信息融合、模式识别组成的电子鼻系统是具有发展前途的嗅觉模拟技术2。其系统优化主要有3 个方面:传感器阵列优化、特征提取和选择方法以及分类模型选择3。在具体应用中,当传感器阵列和硬件结构设计完成时,特征提取、选择方法和分类模型的选择对于提高电子鼻系统的性能具有重要意义。针对特征提取和选择
10、方法,由于在电子鼻系统中的传感器阵列包含了众多类型不同的传感器,而不同2Instrument Technique and SensorFeb2023传感器的材料和结构有差异,目前从传感器阵列中提取单一特征的方法势必会忽略传感器的选择性和特异性1,影响后续的识别效果。文献 4详细阐述了电子鼻中的特征提取方法,如原始响应曲线、曲线拟合参数、变换域、相空间和动态矩等,证明对于标准模型的稳态特征效果更好,瞬态特征包含更多的信息;拟合参数不能保证比简单特征和碎片特征组合取得更好的结果等,所以选择最优的特征提取方法对于后续的分类过程至关重要5。对于分类模型选择,近年来机器学习已经被运用到传感器的各个领域,
11、尤其在气体传感器中的应用广泛。刘伟玲等6 利用支持向量机(support vector ma-chine,SVM)和 BP(back propagation)神经网络结合主成分分析法(principal component analysis,PCA)对 3 种恶臭气体进行分类识别,识别率分别达到了 092 和 094。Q Li 等7 在区分中国白酒香型的研究中,应用随机森林(random forest,F)算法,通过校正决策树的数量和树中变量的个数,取得了较高的区分度。以上研究都采用了适当的机器学习方法进行气体类别检测,但是均含有各自的问题,如容错性较低,建模过程中需要消耗大量硬件资源及海量数
12、据支撑等。目前在气体检测中,有毒有害气体的检测占比较大,样本数据一般较少,在这种场景中把一种有毒有害气体判断成无毒无害气体损失的价值比把无毒气体判别成有毒气体的损失价值高的多8,所以需要在样本较小时尽可能分类正确。因此,本文针对电子鼻系统优化中特征提取方法和分类模型选择方面,提出基于相关性分析方法用于传感器匹配最优的特征提取方法,从而提高传感器间的识别特异性,并采用多种分类模型证明其优越性。同时,提出一种逻辑回归结合支持向量机的分类模型,进一步提高在小样本气体数据下的分类准确率,对于实际场景中多组分气体的准确识别具有重要意义。1特征提取与分类模型11特征提取方法本文为评价多种特征效果,选择均值
13、、方差、最大值、瞬时时刻、曲线拟合参数、小波变换参数等特征进行提取。(1)均值是传感器响应数据的平均值,代表了传感器的敏感性。(2)方差9 是测算数据离散程度重要的指标,反映了传感器响应数的波动程度。(3)最大值为传感器响应最大值与基线的距离,反映了传感器对目标气体的最大响应。(4)瞬时时刻是传感器达到最大响应值的时刻,反映了气敏材料与目标气体反应的快慢。(5)曲线拟合10 是一种用连续曲线近似表征或类比离散点函数关系的数据处理方法。本文选取2 种函数对传感器吸附阶段曲线进行拟合,分别为三阶多项式函数(每个传感器选取 4 个拟合参数作为特征值)和二阶指数函数(每个传感器选取 5 个拟合参数作为
14、特征值)。(6)小波变换11 是将信号映射到一个新的空间,将原始响应分解为近似值(低频)和细节值(高频)。根据母小波的不同,分解后的信号分量的形状也不同,本文将采用 db8、haar 2 种小波来进行小波变换,根据采样点数进行最高级分级,取所有低频信息的平均值作为每个传感器的特征值。12特征选择在机器学习中,相关系数是特征选择常用的度量标准,可利用相关系数找出特征和类别之间的相互关系,以保证所选择的特征具有较好的分类效果12。借助于这种思路,可将其引入电子鼻系统的特征选择中。提取的特征与多类样本间的相关性越强,该特征与样本的联系就越密切,越能体现样本原始数据的真实含义,进而更能准确地反映待测样
15、本的本质信息,其鉴别分类效果也就更好11。在该背景下,相关系数计算方法为r=ni=1(xi x)(yi y)(n 1)SxSy(1)式中:xi为传感器阵列在采集点 i 处的数据向量;yi为对应 xi的特征向量;n 为所有样本的总采集点数;x、y为所有样本采集数据的平均向量以及特征平均向量;Sx、Sy分别为特征和采集数据的标准差向量。相关系数绝对值越接近于 1,表示样本与特征之间的相关性越强,绝对值越接近 0,表示其相关性越弱。13分类模型目前机器学习算法广泛应用于气体传感器领域,效果十分显著,其中逻辑回归和支持向量机都展现了较好的性能,但还有很大的提升空间。本文将逻辑回归和支持向量机相结合,使
16、用支持向量机对逻辑回归预测结果中不确定性较高的样本进行二次分类,进一步提高分类准确率,并提高系统的容错性。第 2 期陈博等:基于特征提取与选择的气体识别研究3131模型介绍逻辑回归(logistic regression,L)算法形式简单,模型的可解释性非常好13,同时可以实现并行化,显著提高了计算效率,在多分类任务下是使用 softmax 函数用于查找每个类的预测概率,softmax 函数输出结果如下:p=eout_1eout_i,eout_2eout_i,eout_ceout_i(2)式中每一项代表样本为某一类别的概率,有多少类别就有多少个概率值,所有的概率和为 1。如第 1项就代表样本为第 1 个类别的概率,这样就可以通过Softmax 函数输出概率最大值的位置来确定样本的类别。输出中概率最大值越大,说明该样本属于这个类别的置信度就越高,分类正确的概率就越大。相反的,会存在输出中概率最大值较小的情况,相比于其他预测概率最大值接近于 1 的样本来说,该样本分类错误的概率更大。于是可在此基础上设定一个阈值,依次将每行的最大值与此阈值相比,若小于此阈值,则判定此行代表的样本为可疑样本1