1、投稿网址:年 第 卷 第 期,():科 学 技 术 与 工 程 引用格式:郑文宾,何蔚 面向多场景的环境异常声音识别 科学技术与工程,():.,():.面向多场景的环境异常声音识别郑文宾,何蔚(.上海电力大学计算机科学与技术学院,上海;.公安部第三研究所,上海)摘 要 随着人工智能和大数据的发展,各种场景中对异常声音识别的需求日益增长,基于人工智能的声音识别技术正在兴起并被高度重视。现行主流的异常声音识别算法多为浅层机器学习模型结构,对异常声音的识别率较低,且识别的声音类型单一。为了有效识别异常声音,提出一种基于梅尔频率倒谱系数(,)和卷积神经网络(,)的环境声音识别算法,对各类异常声音进行采
2、集和有效识别,并及时反馈声音状态,为各类声识别应用场景提供精细化管理技术手段。结果表明:提出的算法对 类场景下环境异常声音的识别率得到极大提高,适用于更广泛的声学场景,具有明显的优势。关键词 异常声音;梅尔频率倒谱系数;卷积神经网络;音频事件检测中图法分类号.;文献标志码 收稿日期:;修订日期:基金项目:国家自然科学基金(,);上海市学术带头人计划();上海市科委项目()第一作者:郑文宾(),男,壮族,广西南宁人,硕士研究生。研究方向:智能信息处理。:。通信作者:何蔚(),女,汉族,上海人,博士,研究员。研究方向:人工智能识别与检测技术。:。,(.,;.,),()(),;目前,对特定场景的监管
3、主要采取人工、视频监控等手段,但视频监控容易受到天气、光线强弱的影响,而且图像的传输、存储处理较为复杂,与视频识别相比,声音处理的成本低,计算量小,易采集,同时能够保护个人隐私,提升私密性。因此,以声音识别为辅助监管方式能够达到更好的管理效果。而音频辨识技术是音频事件检测领域的一个重要研发方向,通过辨识异常音频,人们可以及时发现突发异常状况,进而采取相应的保护措施,这对当下的智能化监控管理具有重要意义。音频辨识工作主要分为异常声音的采集和识别两部分,异常声音是指在特定环境下突然产生诸如尖叫声、玻璃摔碎声、爆炸声等。比如当环境中出现鸡、狗等动物频繁的叫声,可以推测即将发生地震或者有小偷入室盗窃。
4、如果出现狂风暴雨的声音,则说明外部天气异常,需要在屋内躲避并关好门窗。如果有流鼻涕伴随打喷嚏的声音,则说明有人感冒,需要尽快就医,避免传染。当室内突然有玻璃破碎声,则人们应该警惕是否有抢劫或求救等行为。若室外响起连续的警报或鸣笛声,说明所处周围环境不安全,需要尽快避难。目前已有一些国内外的企业和学者开始关注投稿网址:声音识别技术,并做了一系列基础性研究,这些研究都和语音识别、转换和分类相关,但是鲜有人研究异常声音这方面领域。一些声音特征诸如线性预测系数(,)、感知 线 性 预 测 系 数(,)、线性预测倒谱系数(,)及梅尔频率倒谱系数(,)等均已被普遍应用于人类语音识别中。随着机器学习的广泛应
5、用,一些常用的机器学习算法如隐马尔科夫模型(,)、高斯混合模型(,)和支持向量机(,)等已经应用于环境声音的识别中,但是这些模型都是浅层架构,只能够解决某个特定场景中的问题,当面临复杂的、大量的自然语音或环境声音时,这些浅层架构的模型无法提取足够有代表性的声音特征,会缺少相应的表达能力和建模能力,致使声音识别能力降低。王若平等采用经验模态分解的方法提取音频特征,然后使用 模型实现交通环境声音识别,平均识别率得到了一定的提升。等提出了一种基于深度神经网络和隐马尔科夫模型的方法,该方法对猪咳嗽声能有效识别。等提出基于独立向量分析和卷积神经网络的声学模型能够识别鸟类的声音并鉴定其所属种类。彭宁等使用
6、门控循环单元提取 特征,并用正弦函数激活每一帧音频特征,结合全连接层和 分类器在城市环境声音识别中取得较好的效果。这些方法对某一类场景下的声音有较高的识别率,但难以在多样化的场景下发挥稳定的作用,还面临着声音样本缺乏、模型易过拟合等问题。近年来,人工智能、深度学习、物联网及第五代移动通信技术(,)技术快速发展,在智慧城市、智能交通、智慧医疗等各大领域都展开了应用,这对基于深度学习模型的人工智能算法在声音识别中的应用也提出了新思路。针对不同环境场景下的异常声音识别中存在的识别率不高、识别的声音信号类型有限以及声音样本缺乏的问题,现设计一种基于梅尔频率倒谱系数和卷积神经网络的环境声音识别模型,首先
7、通过数据增强的方法生成更多相同类型的声音数据,然后以梅尔频率倒谱系数作为深度学习模型的网络输入,通过该模型对声音特征进行深层次抽取,分析不同的特征与声音信号间的映射关系,最终实现各类异常声音的识别,并得到相应的识别率。卷积神经网络卷积神经网络(,)是对标准神经网络的变形,利用卷积层和池化层代替全连接的隐层,并在输出层之前加入全连接层,便于模型分类,在图像领域尤为突出。现在,卷积神经网络已经成为众多学科中的研究热点,并在多个领域取得成就。借鉴这一思想,将采集的声音信号经过一系列处理,获得其在时域或频域上的多种声谱,使用 建立声学模型并分析声谱特征,该方法不仅能够利用 的优势,还能克服不同声音信号
8、之间的差异性。但是训练 模型需要有足够的数据量,否则模型的分类结果往往会不尽如人意。与丰富的图像数据库相比,异常声音可用的数据量十分有限,这在很大程度上限制了模型的学习能力,因此,需要采用数据增强的方法对已有的声音样本进行适当变换,产生更多相同含义的数据供模型训练,充分发挥模型自身优势。研究方法 特征因模拟人耳听觉功能而受到青睐,同时也是各大音频辨识应用中惯用的特征方式。通过对标准 算法的分析研究,融合深度学习模型,提出一种基于 和卷积神经网络的异常声音识别算法。构建一个深度学习模型,该模型在输入层和输出层中添加了 组“卷积 池化”结构对 特征进行“深度”学习,其基本结构如图 所示。卷积核的大
9、小均为 ,滑动步长均为。池化窗的大小均为 ,滑动步长均为。为防止神经网络过拟合,在网络中加入概率为.的 训练策略。激活函数采用,损失函数采用交叉熵损失函数,优化器使用了批量大小为 的 优化器,输出层采用 分类器。将异常声音的 特征输入构建的模型,模型在多轮迭代的过程中学到训练样本中不同声音的特征直到收敛,表明网络训练完成,然后将未知音频输入训练好的模型中进行分类辨识。异常声音识别流程分为 个阶段:第一阶段,异常声音样本预处理;第二阶段,异常声音的 特征提取;第三阶段,声音特征输入卷积神经网络模型中。个阶段后会得到关于某个声音样本的预测结果,最后根据预测结果与标签进行比较,匹配得出异常类型标签。
10、显而易见,该过程就是一个模式识别的过程,其基本流程如图 所示。,()郑文宾,等:面向多场景的环境异常声音识别投稿网址:图 异常声音识别网络结构.图 异常声音识别流程图.异常声音预处理在异常声音识别过程中,由于输入的声音信号比较复杂,为了便于后续处理,需要对声音信号进行采样和量化、预加重、分帧加窗、数据增强等一系列操作,这些操作即为异常声音预处理。步骤 采样和量化。根据采样定理,取采样频率为.,这将会使得数字信号更好地保留原始信号中有用的成分信息。由于声音信号是连续的模拟信号,需将其变为数字信号才能进行后续工作,转换过程涉及模 数转换。步骤 预加重。为了增加声音的高频分辨率,便于频谱分析,采用一
11、阶有限脉冲响应(,)高通数字滤波器来实现。预加重表达式为()()式()中:()为高通滤波器函数;为预加重系数,通常取.。步骤 分帧加窗。为了方便对异常声音信号进行分析,取 个采样点为一帧,帧长约为,相邻两帧有 的重叠区域。典型的窗函数有矩形窗、汉明窗、汉宁窗等,现使用汉明窗,它能更好地保留原始语音信号的连续性和频率特性。加窗后的信号为()()(),()式()中:为采样点数;()为分帧后的信号。汉明窗()的形式为(,)()()()式()中:取 为.。步骤 数据增强。由于带标签的异常声音样本较少,为了提升卷积神经网络的性能,需要对已有的训练样本进行适当转换,从而产生与原标签数据含义相同的新数据,用
12、于后续深度模型的训练。从时域和音调两方面着手,对已有的声音样本的时间轴和音调伸缩处理,得到了相似的音频,此外还对语义相同的声音样本进行叠加,丰富了训练样本数据量。.异常声音特征提取一段声音信号中包含了很多信息量,如何在众多声学特征中提取声音特征参数是影响声音识别结果的重要因素,有效提取声音特征才能充分挖掘声音背后隐藏的异常事件。特征提取是音频辨识中的关键环节,它将决定后续分类模型的性能,起到承上启下的作用。梅尔频率在梅尔刻度上划分,它与频率的关系表达式为()()()式()中:为频率,。异常声音的 特征提取过程如图 所示,流程步骤如下。图 异常声音特征提取流程图.步骤 输入异常声音文件,将异常声
13、音解析成时域信号()。步骤 对声音数据()进行预处理后得到短时信号(),并进行快速傅里叶变换(,)获得频域信号()。()(),()式()中:为第 帧信号;为频域中 的第 条谱线;为傅里叶变换的点数。并计算声音信号的功率谱()。()()()步骤 将得到的功率谱()通过 滤波器组,梅尔滤波器组由 个三角滤波器组成,它的中心频率为(),如图 所示,其中()为第 个滤波器第 条谱线对应的幅度。科 学 技 术 与 工 程 ,()投稿网址:图 滤波器组.并求得对数能量为()()(),()步骤 通过梅尔倒谱分析,采用离散余弦变换(,)对信号分量分离,从而提取异常声音的 特征()。()()(.),()式()中
14、:为 的阶数。.异常声音识别采用音频信号处理库 中的 函数提取音频特征,得到的特征矩阵为 ,即频率 时间 通道。然后将异常声音的 维特征作为模型的输入,经过神经网络的一系列卷积和池化操作之后,最后输出对应声音种类的预测概率值。模型总共包含 个训练参数,具体参数如表 所示。在模型训练的过程中,随着学习次数的增加,网络中的误差逐步减小直至收敛。为防表 模型参数 层输出数据维度训练参数数量卷积层(,)最大池化层(,)卷积层(,)最大池化层(,)卷积层(,)卷积层(,)最大池化层(,)卷积层(,)卷积层(,)最大池化层(,)全局平均池化层(,)随机失活层(,)全连接层(,)全连接层(,)全连接层(,)
15、注:表示输入时数据维度是可变的。止多轮迭代造成模型过拟合,在训练过程中把一部分训练样本作为验证集,对每次迭代后的网络进行验证。模型的训练结果如图 所示。训练过程结束后,将待测的异常音频输入已训练好的网络模型,便可得到未知音频的分类结果。至此,音频辨识 个阶段的工作已全部完成,可以得到不同场景下各类异常声音的识别准确率。图 模型训练结果.实验结果与分析.异常声音数据库由于目前还没有统一公开的异常声音数据,实验数据集来自网络上 中的公开资源,从中手动提取构建异常声音库。异常声音库划分为 类场景的声音,分别是动物、自然、人声、室内和室外。动物类的声音包括猫、狗、牛、羊、猪、公鸡、母鸡、昆虫、青蛙、乌
16、鸦等 种动物声,自然类的声音包括细雨、刮风、水滴、海浪、泼水、雷雨、马桶冲水、燃烧的火焰、清晨的鸟鸣、夜晚的蟋蟀声等 种自然声,人类的声音包括笑、哭、咳嗽、打喷嚏、呼吸、打呼噜、饮水、刷牙、鼓掌、脚步声等 种人发出的声音,室内的声音包括敲门、木门摇摆、打开易拉罐、玻璃破碎、鼠标点击、键盘打字、洗衣机、吸尘器、电话铃响、闹钟等 种声音,室外的声音包括火车、飞机、直升机、汽车发动机、喇叭、电锯、手锯、警笛、教堂钟声、爆炸声等 种声音。类场景下共有 种异常音频类型,每个音频文件时长,格式为。.不同网络结构的识别率分析实验是在 操作系统上进行,运行环境是基于 .的 .。训练集共有 个,测试集共有 个。为了验证基于 和深度卷积神经网络的声音识别模型对异常声音的识别性能,与传统的 模型、神经网络进行了比较。神经网络仅在输入、输出层之间添加一个隐层,且权值参数数量与 相同。评价指,()郑文宾,等:面向多场景的环境异常声音识别投稿网址:标为识别准确率,即某类样本正确分类的数量与该类样本的总数之比。对不同种类的声音识别准确率对比如表 所示。表 声音识别准确率对比 声音类别准确率 动物.自然.人声.室内.