1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023基于 DE-VF 的猪声音分类识别顾小平吴浩*陈佳豪胡潇涛宋弘(四川轻化工大学自动化与信息工程学院四川 宜宾 644000)收稿日期:2020 07 27。人工智能四川省重点实验室项目(2019YY01);企业信息化与物联网测控技术四川省高校重点实验室项目(2018WZY01,2019WZY02);四川理工学院四川省院士(专家)工作站项目(2018YSGZZ04)。顾小平,硕士生,主研领域:人工智能与状态监测,语音识别。吴浩,教授。
2、陈佳豪,硕士生。胡潇涛,硕士生。宋弘,教授。摘要为了监测识别生猪健康状况以及情绪状态,提出一种基于差分进化优化加权随机森林(DE-VF)猪只声音分类模型,以猪只咳嗽、尖叫和进食声作为研究对象,经预处理后提取改进的梅尔倒谱系数(MFCC_F)、短时能量和短时过零率进行特征融合。采用主成分分析法(PCA)将特征参数降至 13 维,利用差分进化算法优化加权随机森林模型参数,将融合特征参数输入 DE-VF 进行训练与识别。实验结果表明,基于 DE-VF 模型的猪只声音平均识别率达 96 34%,较 DNN、1D-CNN 模型相比提高了系统识别的性能。关键词生猪声音信号差分进化加权随机森林分类识别中图分
3、类号TP3TN912 34文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 037PIG SOUND CLASSIFICATION AND ECOGNITION BASED ON DE-VFGu XiaopingWu Hao*Chen JiahaoHu XiaotaoSong Hong(School of Automation and Information Engineering,Sichuan University of Science Engineering,Yibin 644000,Sichuan,China)AbstractIn order to
4、monitor and identify the health and emotional state of live pigs,a pig sound classificationmethod based on differential evolution optimization and weighted random forest(DE-VF)is proposed The pigs cough,scream and eating sound were taken as the research objects After preprocessing,the improved Mel c
5、epstrum coefficient(MFCC_F),short-term energy and short-term zero-crossing rate were extracted for feature fusion Principal componentanalysis(PCA)was used to reduce the feature parameters to 13 dimensions,the differential evolution algorithm was usedto optimize the weighted random forest model param
6、eters,and the fusion feature parameters were input into DE-VF fortraining and recognition Experimental results show that the average recognition rate of pig sound based on the DE-VFmodel is 9634%Compared with the DNN and 1D-CNN models,the recognition performance of this system is improvedKeywordsLiv
7、e pigSound signalDifferential evolutionWeighted random forestClassification and recognition0引言当前我国畜牧业正处于智能化转型关键时刻,随着现代养殖业的规模化和集约化越来越大,人工智能、大数据等创新技术必将与传统畜牧业进行融合,并且得到广泛应用。由于我国养猪业处于发展阶段,养殖规模的扩大使得传统的人工观测变得更加难以实现,同时人工观测的准确性和实时性也不足1 2。因此,利用语音识别技术分析猪只异常声音,对猪咳嗽声进行识别,有利于生猪呼吸道疾病的预警,提高人工效率的同时也能降低经济损失3。国外对于猪只声音
8、的研究较早,Hirtum 等4 利用模糊算法对猪只声音进行分析,数据样本 5 319 条,对猪只声音正确识别率为 79%。Ferrari 等5通过分析猪只声音信号波形的均方误差及峰值频率,发现正常猪与患病猪之间的声音差异,从而对患病猪只进行识别。Chung 等6提出一种数据挖掘解决方案,将其应用于生猪疾病监测,利用支持向量以及稀疏表示分类器组成的二级分类结构,自动检测识别生猪242计算机应用与软件2023 年疾病。Zhang 等7提取了梅尔频率倒谱系数和子带频谱质心作为复合特征参数,利用支持向量数据描述和反向传播神经网络对生猪的五种异常声音进行分类。目前,国内针对猪只声音识别的研究较少。黎煊等
9、8 通过监测猪咳嗽声进行疾病预警,提出了基于深度信念网络的猪咳嗽声识别和基于连续语音识别技术的猪连续咳嗽声识别。韩磊磊等9 利用决策树支持向量机模型对每帧数据进行识别,然后结合模糊推理技术对时间窗口内结果进行推理识别,实现对猪只异常声音进行识别。随机森林算法是 Breiman10 提出的概念,并且证明其不存在过拟合问题。本文将随机森林引入到猪声音识别领域,为了能让分类性能好的决策树拥有更大的决策权,提出加权随机森林算法,采用差分进化算法优化模型参数,提取 MFCC_F、短时能量和短时过零率特征参数进行特征融合,输入到 DE-VF 模型,实现对猪只声音的分类识别。1数据采集与处理1 1数据采集本
10、文实验的数据信号采集地位于四川省某大型养殖场,考虑采集声音的多样复杂,选用灵敏度较高 GK-MIC03 型拾音器作为声音数据采集器,通过网线传输至上位机存储。声音采集在 1 月至 4 月猪只多发病期进行,采集 7 头 60 kg 左右的猪只声音,其中有 3 头经兽医诊断为呼吸道疾病感染,选取猪只咳嗽、尖叫和进食声作为研究对象,其中:咳嗽声为患病猪只发出的声音;尖叫声为猪只在打斗或打针时所发出的声音,采集时需要人为进行刺激;进食声为猪只进食所发出的哼唧声音。经养殖场兽医协助,采用 Audacity 音频处理软件对所采集的猪只声音进行人工分类标记,然后对标记后的数据进行切分,得到猪只声音样本 80
11、0 个,其中咳嗽样本 375 个、尖叫样本 195 个、进食样本 230个,并将其全部保存为 wav 格式供后续进行数据处理。1 2猪只声音数据预处理在进行猪只声音信号特征提取之前,需要对数据进行预处理,同语音识别处理方法类似,包含去噪、分帧加窗和端点检测。将特征参数融合后的输入 DE-VF 模型进行训练分类,从而实现对猪只咳嗽声音识别,其识别原理流程如图 1 所示。图 1猪只咳嗽识别原理流程1 2 1语音增强本文采用改进小波阈值去噪11 实现猪只声音数据降噪处理,传统的小波阈值去噪流程包括含噪信号小波分解、小波分解阈值函数和阈值确定、信号重构。选择小波基函数 sym6 和分解层为 5,对猪只
12、声音信号x(n)进行小波变换,从而得到各层的原始小波函数i,j以及第 n 层的尺度系数。对原始小波函数 i,j进行阈值处理,采用基于反正切函数的改进阈值函数实现,从而得到估计的小波分解系数 i,j。通过第 n 层的尺度系数和阈值处理后的小波分解系数 i,j进行信号重构,得到去噪后的声信号。改进的阈值函数表示为:i,j=i,j2arctan(i,j)ei+(1+)i,ji,j(1+)2arctan(i,j)en i/2+i,j(1)式中:i 为当前第 i 层的小波分解;n 为分解层数;为阈值;0,+)表示调整参数。猪只声音去噪前后对比如图 2 所示。(a)去噪前猪只声音(b)去噪后猪只声音图 2
13、去噪前后猪只声音样本第 3 期顾小平,等:基于 DE-VF 的猪声音分类识别2431 2 2加窗分帧猪只声音信号同语音信号一样,是非平稳信号,所以在处理时,把它分成较短的帧,每帧中可将其看作稳态信号。为了帧与帧之间的参数能够平稳过渡,应在相邻两帧之间互相有部分重叠。一般情况下,时域分帧 10 30 ms,因此本文选择帧长 200、帧移 80。在原始猪只声音信号上加窗函数就能实现声音信号的分帧。本文选择海明窗(Hamming)作为窗函数,由于海明窗的加权系数能够抑制旁瓣大小,能够让信号帧与帧之间连续性较好,其窗函数如下:w(n)=0 54 0 46cos2nN()10nN 10其他(2)1 2
14、3端点检测端点检测的目的是为了找出语音信号的起始点,提高声音信号的识别率。选择基于短时能量的方法进行端点检测。对于猪只三种声音样本 x(n),帧长 C,其中第 v 帧声音信号表示为 xv(n),此时猪只声音短时能量 Ev计算公式如下:Ev=Cn=1x2v(n)(3)单参数双门限检测法,其中单参数是指幅值归一化后的短时能量 ev,如式(4)所示。ev=EvVv=1Ev(4)双门限设置 T1和 T2两个阈值,分别为 T1=0 01、T2=0 002,当猪只声音样本短时能量 ev高于 T1时认为是有效信号部分,即语音帧,当短时能量高于或低于T2时认为是样本的起始点。2特征提取特征参数提取包括时域和频
15、域特征,本文时域特征采用短时能量、短时过零率,频域采用主流 MFCC(Mel Frequency Cepstral Coefficients)系数为主,并在此基础上进行改进与组合。2 1时域特征提取短时能量(Short-term Energy,E)即每一帧猪只声音信号能量大小,假设猪只声音信号 x(n),其中第 v帧声音信号为 xv(n),表示为:xv(n)=w(n)x(v 1)inc+n)(5)式中:1nC,1vL,C 为帧长,L 为猪只声音分帧后的总帧数;inc表示帧移;m 为猪只声音分帧后的总帧数。再采用式(3)即可计算短时能量。短时过零率(Zero-Crossing ate,Z)即猪只
16、声音信号穿过横轴的次数,其表示为:Zv=12Cn=1sgn xv(n)sgn xv(n 1)(6)2 2改进 MFCC 特征提取梅尔频率倒谱系数(MFCC)的原理是基于人对声音的感知规律,来分析声音的频谱特性,相比其他特征参数,更符合要求。它与频率的关系公式如下:fmel=2 595lg 1+f()700(7)式中:fmel为梅尔频率;f 为实际频率。MFCC 特征参数的提取包括傅里叶变换、Mel 滤波器组、对数运算、离散余弦变换。本文采用 24 维 MFCC_F 特征参数,由 MFCC 与其一阶差分(MFCC)进行组合,其中 MFCC_F 与 MFCC和 MFCC 关系为:FMFCC=MFCC+MFCC(8)2 3特征参数融合短时能量(Ev)能够很好地表征猪只声音之间的区别,对于猪只异常声音分帧之后,每一帧猪只声音信号能量大小即短时能量。短时过零率(Zv)即声音波形经过水平轴的情况,能够表征猪只声音信号一部分频率信息。因单维数的时域特征很难表征信号的特点,为了提高声音识别率,本文将 24 维MFCC_F 特征参数与单维短时能量(Ev)和短时过零率(Zv)进行特征融合,考虑到三者数量级