1、2022年第46卷第10期20语 音 技 术oice TechnologyV文献引用格式:贺伟.基于 HHT 的声纹信号检测识别智能评教系统设计 J.电声技术,2022,46(10):20-23.HE W.Design of intelligent teaching evaluation system for voiceprint signal detection and recognition based on HHT J.Audio Engineering,2022,46(10):20-23.中图分类号:TN912.3 文献标识码:A DOI:10.16311/j.audioe.2022.
2、10.006基于 HHT 的声纹信号检测识别智能评教系统设计贺 伟(河南城建学院 电气与控制工程学院,河南 平顶山 467036)摘要:教师是课堂的主导者。对教师进行教学评教,关乎知识传授和教师能力提升。对此,以希尔伯特黄变换(Hilbert-HuangTransformation,HHT)对授课教师声纹特征进行处理分析,完成身份确认,再与传统教学评价方法相结合,从而实现复杂的教学活动量化。充分运用现代信号处理技术和人工智能,将信息化手段与课堂教学评价相结合,建立有利于学生成才和教师成长的科学化教学评价模式。关键词:教学;评教;声纹Design of Intelligent Teaching
3、Evaluation System for Voiceprint Signal Detection and Recognition Based on HHTHE Wei(School of Electrical and Control Engineering,Henan University of Urban Construction,Pingdingshan 467036,China)Abstract:Teachers are the dominant players in the classroom.Teaching evaluation of teachers is related to
4、 knowledge transfer and teacher ability improvement.In this paper,Hilbert-HuangTransformation(HHT)is used to process and analyze the characteristics of teachers voice print,complete identity identification,and then combined with traditional teaching evaluation methods,so as to realize the quantifica
5、tion of complex teaching activities.This paper makes full use of modern signal processing technology and artificial intelligence,combines information means with classroom teaching evaluation,and establishes a scientific teaching evaluation model which is conducive to students success and teachers gr
6、owth.Keywords:teaching;assessment;voice print0 引 言现有的语言教学评价往往基于评价专家的主观经验予以定性,或借助评价量表和工具,用人工手动采样的方式,在语言教学进程中记录数据予以定量。这种形式要么是经验性的,难免流于主观;要么是机械的,难免流于形式。随着信息技术的迅猛发展,完全可以设计出更加科学、智能的工具与技术,用以识别课堂教学进程中的师生语言类型及特征、互动频次及其效率,进而归纳、总结出语言教学的风格与效能,识别并诊断其问题,有针对性地给教师的教学提供相应的改进建议,进而大大提高语言教学质量。因此,本文提出基于希尔伯特黄变换(Hilbert-
7、HuangTransformation,HHT)的声纹信号检测识别智能评教系统设计,尽可能地实现科学、严谨的教学评价。1 研究背景要实现智能评教,需要突破两个关键技术,分别是智能话语检测技术和声纹信号识别检测技术。其中,声纹信号识别检测技术于二十世纪中期被提出。美国科学家劳伦斯克斯特最先对健康人群的声纹信号进行分析研究,鉴定准确率接近 100%。而声纹识别检测技术在我国开始研究是从二十世纪九十年代,技术得到了较好的发展。声纹技术应用于课堂教学,可以智能地识别并分析教师与学生在课堂互动过程中在语音、语调、情感或语句等方基金项目:2020 年河南省高等学校重点科研项目(21B510002)。202
8、2年第46卷第10期21Voice TechnologY语 音 技 术面的特征,并了解学生的掌握程度及其问题所在,为课堂学习提供及时、精准的诊断与评价。智能话语检测技术在声纹识别等技术的基础上,结合多维技术与方法,实现对话语的识别与检测。本文特指对课堂教学进程中教师与学生的话语进行检测,分析其数量与质量、诊断其特征与问题,进而做到及时且智能化、科学化的诊断与评价。2 基于 HHT 的声纹识别评教系统设计2.1 总体框架本文以“基于 HHT 的声纹信号检测识别智能评教系统设计”为核心,期望通过多种方法来完成相关研究。首先,借助文献研究法了解当前语言教学评价现状,进而聚焦语言教学中存在的问题,寻求
9、问题的解决方法。其次,借助比较研究法查阅其他国家的相关研究成果,总结语言教学评价的不同方法,以期为本研究提供借鉴。最后,根据已有研究成果及目前语言教学的现状,构建基于智能话语检测和声纹识别的教学评价模式;借助行动研究法将此模式在实际教学中予以应用,根据实际情况完善和改进此教学评价模式。智能评教系统设计总体框架如图 1 所示。课堂语音智能话语检测说话人识别行为序列动态补偿数据处理教学诊断可视化课堂教学图 1 智能评教系统框图2.2 HHT 技术介绍本文的一个关键的环节就是对声纹信号进行特征提取。特征提取采用希尔伯特黄变换(Hilbert-HuangTransformation,HHT)。它具有自
10、适应性,是对非线性、非平稳数据分析的有效工具。HHT 时频分析方法主要由经验模态分解(Empirical Mode Decomposition,EMD)和与之对应的希尔伯特谱构成。该算法首先采用 EMD 算法将研究信号分解为一系列固有模态函数(Intrinsic Mode Function,IMF)分量,其次对每个单频率的 IMF 分量进行Hilbert 变换,从而得到各 IMF 分量的瞬时频率和瞬时幅值,最终得到相关非平稳信号的Hilbert时频谱。该时频谱可以完整表示信号的三维时频分布。该信号处理算法的优点在于能够根据信号的局部时变特征进行自适应时频分解,消除分解过程中人为因素的影响。EM
11、D 方法对非平稳及非线性信号进行线性化和平稳化处理过程中,可以使信号本身的特征在分解过程中得到最大限度的保留,这是该分解方法所具有的显著特性。2.2.1 固有模态函数固有模态函数(IMF)可看作是含有单频成分的新的信号,可以利用物理学理论对其进行解释,有利于在 HHT 算法中实现对瞬时频率的计算。每一个 IMF 必须同时具备以下两个条件要素:(1)一个满足 EMD 分解的信号内,其极值点和过零点数目之差应等于零;(2)在任何时刻,信号内部的极大值点生成的上包络线和极小值点生成的下包络线的均值为零,也就是说,相对于时间轴上、下包络线局部对称 1。根据上述条件(1)和条件(2)的描述,很容易看出
12、IMF 分量能够适用于传统窄带信号,同时又可以使其得到的瞬时频率富有意义。在实际信号处理中发现,经 EMD 分解后得到的系列 IMF 分量均可视为窄带信号。2.2.2 EMD 算法分解过程对于 HHT 算法研究内的复杂信号,首先通过经验模态分解对其进行分解,从而得到与之对应的固有模态函数,然后对这些固有模态函数运用希尔伯特变换来构造解析信号,最后求得瞬时频率。EMD 分解建立在以下假定条件下:(1)任何复杂信号都可以视作是由一系列不同频率的固有模态函数(IMF)构成,且固有模态函数的极值点和过零点数目均相同;(2)在两个相邻的过零点之间存在且只能存在一个极值点;(3)由极大值和极小值确定的上、
13、下包络线关于时间轴局部对称;(4)任意两个模态之间相互独立 2。当一个研究信号可看作由系列固有模态函数相互叠加构成的复杂信号,为了对其进行分析研究,可以在上述假定情况的基础上采用 EMD 算法2022年第46卷第10期22语 音 技 术oice TechnologyV对该类信号 x(t)按照既定算法进行分解。详细算法步骤如下。(1)确定信号 x(t)的极大值点和极小值点,再采用三次样条拟合算法分别连接极大值点生成上包络线,记为 v1(t)。以上述方法连接极小值点生成下包络线,记为 v2(t)。(2)记 v1(t)和 v2(t)的均值为 m1(t),从而求得它与原始信号的差值:h1=x(t)-m
14、1(t)(1)(3)将式(1)中的信号h1(t),依次进行步骤(1)、步骤(2)操作,进而得到上、下包络线的均值 m11(t),并得到 h11=h1(t)-m11(t),重复循环,直到 h1k=h1(k-1)(t)-m1(k-1)(t),使得 h1k满足 IMF 介绍中的条件(1)和条件(2)。令 c1=h1k,得到第一个 IMF 分量。(4)从研究对象 x(t)中分离出 c1,得出:()()11r tx tc=(2)把式(2)的信号 r1(t)重复步骤(1)、步骤(2)和步骤(3)操作,得到一系列对应的固有模态函数 ci(t)及趋势项:()()()(1)iiir trtc t=,1,2,in
15、=L(3)(5)当式(3)中的 rn(t)成为一个单调函数时,对信号进行 EMD 分解停止。于是原信号 x(t)可以用上述过程得到的固有模态函数 ci(t)与 rn(t)之和表示:()()1ninix tcrt=+(4)式(4)中的 IMF 分量包含了信号由高到低不同成分的频率段,且每一个频率段所包含的频率成分均不相同。在 EMD 逐层筛分的过程中,模态波形的叠加逐步得到了削弱,从而使波形轮廓趋于对称 3。2.3 声纹信号特征提取2.3.1 对语音样本进行 EMD 处理本文中的声纹信号特征提取,首先对采集到的声纹信号进行 EMD 处理,可以分解出若干个 IMF分量,如图 2 所示。2.3.2
16、IMF 的主要特性分析和验证EMD 方法会使得声纹信号中的关键时频特性成分最先被分解出来 4。以此类推,经 EMD 分解出来的前几个 IMF 分量就成为声纹信号特征信息的最重要载体。单纯从分解得到的 IMF 分量时域波形图来分析,首先得到的几个经验模态分量是原始声纹信号的主要组成部分。对前面若干个 IMF分量进行加性处理,即可得到人耳难以分辨是否为原始信号的合成信号。-0.1-0.51.01.5Time/Tinf8inf7inf6inf5inf4inf3inf2inf1声纹信号2.02.5-0.51.01.52.02.5-0.51.01.52.02.5-0.51.01.52.02.5-0.51.01.52.02.5-0.51.01.52.02.5-0.51.01.52.02.5-0.51.01.52.02.5-0.51.01.52.02.50.10-0.20.20-0.50.50-0.50.50-0.50.50-0.50.50-0.50.50-0.10.10-110图 2 声纹信号经 EMD 分解得到的 IMF 分量2.3.3 用 Hilbert 谱表征声纹信号对语音信号的全部 IMF