基于共振峰和梅尔倒谱的声纹特征提取SOC设计

资源描述

1、第卷第期年月传感技术学报 .项目来源：黑龙江省自然科学基金（）；黑龙江省高等教育教学改革项目（）；黑龙江省教育厅基本业务专项项目（）收稿日期：修改日期：，（，；，）：，（），（）（），（）：；：基于共振峰和梅尔倒谱的声纹特征提取设计席青云，邱长江，陶佰睿，关新宇，苗凤娟（内蒙古广播电视大学兴安盟分校，内蒙古兴安盟乌兰浩特；齐齐哈尔大学通信与电子工程学院，黑龙江齐齐哈尔）摘要：反映声道（谐振器）物理特性且不易受环境影响的元音共振峰可以更好地反映说话人的声纹特征，为此提出了说话人共振峰自适应（梅尔倒谱系数）特征提取（片上系统）设计。首先提取说话人语音元音的三组共振峰来设

2、计三角形滤波器组，并基于传统与共振峰改进矩阵参数比值设计自适应融合说话人语音特征以改进。在中完成性能仿真，在中完成代码设计，在（现场可编程门阵列）开发板上完成设计、编译、仿真和验证下载。结果表明，在较高信噪比环境下，基于自适应融合和共振峰改进的得到的特征向量比传统的具有更强的鲁棒性，此技术在说话人声纹身份识别传感器设计中有较大应用推广价值。关键词：声纹识别；共振峰；梅尔频率；自适应融合；片上系统中图分类号：文献标识码：文章编号：（）互联网技术已广泛应用于生产和人们的日常生活中，其安全问题一直备受关注。近年来，语音识别以其易于接收、获取方便、准确率高等优点越来越受到人们的欢迎。

3、此外，特征提取部分是语音识别系统中最重要的部分。在其他文献中，共振峰和的组合是通过连接相应的特征向量来实现的，然而，简单的连接可能会导致高维特征包含来自不同输入特征流的冗余信息。与相比，共振峰不太容易受到噪声的影响。此外，元音共振峰在语音识别中起着重要作用。汉语有五个主要元音，即，。五个汉语元音的识别对汉语语音识别非常有用。共振峰频率因性别、年龄、民族和地域等而不同。在、和中发现了元音和性别之间的显著交互作用。倒谱分析已被证明是一种有效的工具，频率倒谱系数（）可被视为元音特第期席青云，邱长江等：基于共振峰和梅尔倒谱的声纹特征提取设计征的有利选择。在本文中，我们提出了一种基于共振峰

4、的改进滤波器组的新方法。首先，使用软件提取三组共振峰、和。其次，在上从语音信号中提取传统参数矩阵和基于改进的共振峰参数矩阵。当共振峰差异不大时，选择传统的，当两共振峰差异较大，使用基于和的修正，其他情况下使用基于和的修正。因此，我们计算了传统和改进的比值，以进行自适应融合。最后，系统是通过平台核设计，并完成编译、模拟和下载验证。测试方法基于人耳临界带宽随频率的已知变化。该技术基于两种类型的滤波器，即线性间隔滤波器和对数间隔滤波器。通过在频率标度上表示信号，可以捕捉语音的重要语音特征。共振峰不太容易受到环境变化的影响，并且共振峰对人类语音识别率有显著影响。因此，我

5、们使用说话人的共振峰和倒谱系数（）从语音信号中识别说话人。该过程包括以下步骤：预加重用于强调高频。采用成帧将信号分成小帧。应用了窗口化以平滑框架的侧面。利用进行时域到频域的变换。滤波器组由共振峰、和改进，共振峰和的组合不是通过简单地连接相应的特征向量来实现的，它不能通过基于共振峰频率修改滤波器组来产生高维特征。采用将谱转换回时域。利用融合技术将传统的和基于共振峰的改进结合起来。基于多算法融合的说话人语音特征提取流程如图所示。图特征提取流程图共振峰提取论文涉及研究对象为男性名，女性名，年龄在岁之间，平均年龄、身高和体重分别为岁、和。他们被要求发个持续时间为的

6、汉语元音。语音信号是用连接到台式电脑的麦克风录制。语音采样频率为，分辨率为位。所有的录音都是在正常的室内环境下进行的。软件被用来确定元音的前三个共振峰频率。以说话人和说话人为例，说话人和在元音中的共振峰提取分别如图和图所示。图说话人在元音中的共振峰图说话人在元音中的共振峰五个元音中的前三个共振峰频率显示在表和表中，分别对应说话人和说话人。并且还计算了五个元音中三个共振峰频率的平均值。我们可以看到，即使说同一个元音，不同说话人的共振峰也不相同。表五个元音中说话人的共振峰元音平均值传感技术学报第卷表五个元音中说话人的共振峰元音平均值滤波

7、器组的改进设计图显示了基于共振峰、和的改进滤波器组的设计。利用频率倒谱特征缩放的三角滤波器集进行滤波。每个三角形都可以用作带通滤波器，具有中心频率和上、下截止频率。中心频率是人耳在某一频率范围内的感知中心，上下频率是人耳在该频率范围内的感知范围。滤波器的形状可以是三角形窗、汉明窗或汉宁窗。本文选用常用的三角形滤波器，尺度上的最大值由频率与线性频率的关系决定，如公式（）所示，滤波器组的区间为与或与的差值。图为滤波器组的改进设计。（）（）图滤波器组设计过程由表和表中和说话人滤波器组参数可知，相比和差的情况，说话人和的差值要大于说话人对应的差值。说话人和

8、说话人的三角形滤波器的数量在尺度上的最大值为时是不一样的。基于说话人的和的滤波器的数量比说话人多一个。基于和的滤波器的数量正好相反。表基于和的滤波器组参数每个三角形滤波器的间隔三角形滤波器的数量说话人说话人表基于和的滤波器组参数每个三角形滤波器间隔三角形滤波器数量说话人说话人除了采样频率、的最低频率、最高频率和长度，不同的共振峰对三角滤波器的振幅也有影响。如图（）和图（）中说话人的滤波器组，图（）中和的差值小于图（）中和的差值，而幅值数量则与上述描述相反。作为参考，说话人的滤波器组如图（）和图（）所示。图说话人和和差值及和

9、差值的三角滤波器幅值图说话人和差值以及和差值的三角滤波器波形三角形滤波器的波形主要由滤波器的间隔决定。图（）和图（）所示为说话人的滤波器组，每个滤波器的带宽就是图（）中和的第期席青云，邱长江等：基于共振峰和梅尔倒谱的声纹特征提取设计差值，图（）中和的差值，可以看出和的差值要大得多。作为对比，图（）和图（）分别为说话人的滤波器组。特征提取传统的提取对比图说话人语音信号特征提取流程，传统对说话人语音信号特征提取主要流程是：预强调，加窗和，滤波器组取对数，得到对数谱图。加窗窗口长度和移位分别为和。传统说话人（）、（）的语音特征提取如图所示。图基

10、于传统说话人（）（）之间的比较改进的提取与部分节不同的是，采用了基于共振峰的改进的滤波器组。共振峰频率直接从时域信号中提取。在图中，我们展示了本文中使用的不同特征集，图（）、图（）、图（）和图（）中组件的维数为。图修改后的显示说话人与的比较，和差异以及和差异的比较适应性特征融合比值分析用于从传统和基于共振峰的改进中选择显著特征。从比值的最高值中选择显著特征。图显示了两种改进的和传统的尺寸和比值的关系。我们可以看到，每个系数有不同程度的重要性，的重要性基于和更大的前三个组件，在最后六个组件中基于和占据了一个重要的位置。图基于共振峰的传统

11、和改良的比值系统设计组件设计将处理器、外围设备、存储器、定制知识产权组件集成在单个芯片上。基于的为用户开发复杂系统提供了硬件重用、更容易的可编程性。所提出的系统使用，由处理器、定时器等外设、中断模块和、滤波器组等核组成。图显示了在构建器上的自定义核。图在构建器上的自定义核仿真结果系统设计采用系列作为主控芯片。反应时间可达纳秒级，保证系统测量的准确性。对、采样频率、语音信号等测试台代码进行编码，验证设计的正确性。仿真结果如图所示。传感技术学报第卷图时序仿真编译下载编译报告如图所示，总结了板上元器件的资源利用率。例如，引脚利用率为总

12、数的。编译成功后将数据下载到开发版上。图编译占用资源实验结果将标准差的计算应用于传统和改进及融合的特征向量。不同算法的性能结果如表所示，对应的图如图所示。我们可以看到，传统的标准差值最大，融合的标准差最小，基于和的修改后的标准差值小于基于和的修改后的标准差值。标准差值越小，系统的鲁棒性就越强。当信噪比为时，融合的效果远远好于传统。显然，基于共振峰的融合和改进的对噪声的鲁棒性更强。表不同信噪比条件下特征向量的均值和标准差信噪比传统标准差改进基于和的标准差基于和的标准差融合标准差图不同算法的结语本研究中提出了基于共振峰、和改进的基于的语音

13、特征提取系统。提取元音信号的作为元音的特征，对传统、基于共振峰改进和融合算法进行对比分析，然后实现了设计。实验表明，融合的及改进的可以达到更强的鲁棒性，并且优于传统的。参考文献：，（）：李婉玲，张秋菊基于的抗噪语音特征提取及优化传感器与微系统，（）：，：唐忠林，杨建华，雷宏伟语音交互与力感知式智能牙周探针开发传感技术学报，（）：，（）：，：，（）：，：，：，第期席青云，邱长江等：基于共振峰和梅尔倒谱的声纹特征提取设计，（）：，（）：王学光，诸珺文，张爱新基于特征的声纹同一性鉴定方法计算机科学，（）：，（）：朱亚涛，陈霏，张雨晨，等基于循环神经网络的双耳助听器语音增强算法传感技术学报，（）：张成晖，叶朝辉，张立伟，等在声波测井数据采集系统中的应用传感器与微系统，（）：龚泯宇，郭世旭，田皓文，等基于的低噪声高保真数字水听器设计传感技术学报，（）：席青云（），女，蒙古族，内蒙古兴安盟人，硕士，副教授。研究方向人工智能与大数据处理，；邱长江（），男，汉族，江苏宿迁人，在读硕士研究生。研究方向为跳频信号检测，；陶佰睿（），男，汉族，吉林洮南人，博士，教授，研究方向为设计和微纳传感器，。

展开阅读全文

基于共振峰和梅尔倒谱的声纹特征提取SOC设计_席青云.pdf