1、 第2卷 第1期V o l.2 N o.1 2 0 2 3年2月 J o u r n a l o f A r m y E n g i n e e r i n g U n i v e r s i t y o f P L A F e b.2 0 2 3适用于短波信号侦察的话音端点检测方法张洪德,韩鑫怡(陆军工程大学 通信士官学校,重庆 4 0 0 0 3 5)摘要:针对传统话音端点检测方法在短波低信噪比信道下检测准确率低的问题,提出一种将深度生成对抗网络和自适应参数的子带对数能熵积相结合的话音端点检测方法。该方法首先利用深度生成对抗网络话音增强方法降低噪声对待检测信号的影响,再以自适应参数的子带对
2、数能熵积这一新的话音特征参数为阈值,使用自适应阈值双门限检测法完成话音端点检测。仿真实验结果表明,该方法对于-5 d B信噪比的标准话音库检测的平均加权错误测度仅为1 3.5%,而对于实际短波侦察信号库检测的平均加权错误测度为1 6.7%,均优于能零熵法和多窗谱估计谱减与能熵积法。关键词:深度生成对抗网络;话音增强;话音端点检测;对数能量;谱熵 中图分类号:T N 9 1 2.3D O I:1 0.1 2 0 1 8/j.i s s n.2 0 9 7-0 7 3 0.2 0 2 1 1 1 2 5 0 0 6S p e e c h E n d p o i n t D e t e c t i
3、o n M e t h o dA p p l i e d t o S h o r t w a v e S i g n a l R e c o n n a i s s a n c e Z HANG H o n g d e,HAN X i n y i(C o mm u n i c a t i o n s N C O A c a d e m y,A r m y E n g i n e e r i n g U n i v e r s i t y o f P L A,C h o n g q i n g 4 0 0 0 3 5,C h i n a)A b s t r a c t:A i m i n g a
4、 t t h e p r o b l e m o f l o w d e t e c t i o n a c c u r a c y o f t r a d i t i o n a l s p e e c h e n d p o i n t d e t e c t i o n m e t h o d s i n s h o r t-w a v e a n d l o w s i g n a l-t o-n o i s e r a t i o c h a n n e l s,a s p e e c h e n d p o i n t d e t e c t i o n m e t h o d t
5、 h a t c o m b i n e s d e e p g e n e r a t i v e a d v e r s a r i a l n e t w o r k s a n d s u b-b a n d l o g a r i t h m i c e n e r g y e n t r o p i c p r o d u c t o f a d a p-t i v e p a r a m e t e r s i s p r o p o s e d.T h e m e t h o d u s e s t h e d e e p g e n e r a t i v e a d v e
6、 r s a r i a l n e t w o r k s p e e c h e n h a n c e m e n t m e t h o d t o r e d u c e t h e i n f l u e n c e o f n o i s e o n t h e s i g n a l s t o b e d e t e c t e d.T h e n,t a k i n g t h e n e w s p e e c h c h a r a c-t e r i s t i c p a r a m e t e r o f t h e s u b-b a n d l o g a r
7、 i t h m i c e n e r g y e n t r o p i c p r o d u c t o f a d a p t i v e p a r a m e t e r s a s t h e t h r e s h o l d,t h i s m e t h o d u s e s t h e a d a p t i v e d o u b l e-t h r e s h o l d t o c o m p l e t e t h e s p e e c h e n d p o i n t d e t e c t i o n.T h e s i m u l a t i o n
8、 r e s u l t s s h o w t h a t t h e a v e r a g e w e i g h t e d e r r o r m e a s u r e o f t h i s m e t h o d i s o n l y 1 3.5%f o r t h e s t a n d a r d s p e e c h l i b r a r y d e t e c t i o n w i t h-5 d B S N R,w h i l e t h e a v e r a g e w e i g h t e d e r r o r m e a s u r e f o r
9、 t h e a c t u a l s h o r t w a v e r e c o n n a i s s a n c e s i g n a l l i b r a r y d e t e c t i o n i s 1 6.7%,a n d b o t h a r e b e t t e r t h a n t h e e n e r g y-z e r o e n t r o p y m e t h o d a n d t h e m u l t i-w i n d o w s p e c t r a l e s t i m a t i o n s p e c t r a l s
10、u b t r a c t i o n a n d t h e e n e r g y e n t r o p y p r o d u c t m e t h o d s.K e y w o r d s:d e e p g e n e r a t i v e a d v e r s a r i a l n e t w o r k;s p e e c h e n h a n c e m e n t;s p e e c h e n d p o i n t d e t e c t i o n;l o g a r i t h m i c e n e r g y;s p e c t r a l e n
11、t r o p y 收稿日期:2 0 2 1-1 1-2 5基金项目:军内科研项目(L J 2 0 1 9 1 C 0 7 0 6 5 9)。第一作者:张洪德,博士,副教授,主要研究电子侦察,h d z h a n g 2 6 41 2 6.c o m。通信作者:韩鑫怡,硕士研究生,主要研究战场信息处理,9 7 6 4 5 5 7 5 6q q.c o m。在短波话音信号侦察工作中,话音端点检测技术通常作为话音识别任务的前端预处理环节,用于区分话音区间与非话音区间,因此检测的准确程度将直接影响后续话音识别的效果和效率。现阶段话音端点检测方法主要可以分为两大类:基于话音特征参数的方法和基于模式匹
12、配的方法1。其中基于模式匹配的方法主要利用深度学习等有监督算法实现话音端点信息识别,如文献2 将深度神经网络、卷积神经网络以及长短时记忆网络相结合组成新的网络进行检测。基于模式匹配的方法虽然整体检测效果不错,但由于检测模型需要耗费大量时间训练,导致这类方法实时性较差,实用性欠佳。目前最常用的话音端点检测方法是基于话音特征参数的检测方法,其基本思想是利用话音与噪声特征参数的差异进行检测区分,经典的话音特征参数检测方法有短时能量过零率法、谱熵法、谱距离法等1,这些方法通常仅在高信噪比条件下有较好的检测效果,随着信噪比降低检测准确率急剧下降。为了提高低信噪比条件下的检测效果,研究人员一方面使用不同话
13、音特征参数进行联合检测,如文献3 提出一种将短时能量,短时过零率和谱熵3种特征参数综合考虑的改进能零熵法。另一方面引入话音增强思想,通过降低噪声对待检测信号的影响,来提高低信噪比条件下的检测效果,如文献4 提出的多窗谱估计谱减与能熵积法就是利用多窗谱估计谱减法进行增强处理。虽然上述改进一定程度提高了低信噪比条件下检测的准确率,但由于实际短波话音侦察信号噪声干扰复杂且恶劣,导致常用的检测方法难以准确地完成短波话音的检测,从而影响后续的话音识别处理。针对上述问题,提出一种将深度生成对抗网络和自适应参数的子带对数能熵积相结合的话音端点检测方法,即首先使用深度生成对抗网络话音增强方法对待测信号进行降噪
14、处理,而后以自适应参数的子带对数能熵积作为特征参数,使用自适应阈值双门限检测方法进行检测。通过仿真实验证明,对于标准话音库和实际短波侦察话音信号库,该方法都能够获得较理想的检测效果。1 话音增强深度生成对抗网络生 成 对 抗 网 络(g e n e r a t i v e a d v e r s a r i a l n e t-w o r k,GAN)5是一种采用对抗式训练的深度神经网络架构,主体由生成器和判别器组成,通过两者间的对抗训练,生成器不断提升生成更接近真实数据的能力,判别器则不断提升判别真实数据和生成数据的 能 力。话 音 增 强 生 成 对 抗 网 络(s p e e c h e
15、 n-h a n c e m e n t g e n e r a t i v e a d v e r s a r i a l n e t w o r k s,S E G-AN)6的模型结构如图1所示,S E GAN通过对抗训练获得生成接近纯净话音信号的能力。为了提高低信噪比条件下网络模型的增强效果,S E GAN基础上进行改进,提出一种话音增强深度生成对抗网络(s p e e c h e n h a n c e m e n t d e e p g e n e r a-t i v e a d v e r s a r i a l n e t w o r k s,S E D GAN)。利用多个生成器
16、构成深度生成对抗网络,基于“多生成器,多次生成处理”的思想提高模型在低信噪比条件下的增强能力。S E D GAN的结构如图2所示,网络主体由多个生成器和一个判别器组成,各生成器之间分别以“串联”的方式进行连接,而各生成信号则是以“并联”的方式输入判别器。图1 S E G AN模型结构图2 S E D GAN模型结构训练阶段生成器G1生成的话音信号1一方面作为生成器G2的输入信号继续处理,另一方面连同原始带噪话音信号一起输入判别器中进行判别,以此类推。判别器D分别对各生成器的生成话音信号进行判别,并将反馈信息分别反馈回各生成器中,各生成器根据反馈信息向生成纯净话音信号的方向独立地调整网络参数。经过反复迭代训练,最终使判别器D无法准确分辨生成器Gn生成的话音信号和纯净话音信号。增强阶段则直接将带噪话音信号输入训练完毕的深度生成对抗网络进行增强处理,最终输出增强的话音信号。在基于生成对抗网络的话音增强任务中,判别器通过衡量真实话音与生成话音分布的差异,训练生成器使这个差异最小化,因此真实话音分布与生成话音分布之间差异衡量的准确程度将直接影响网络模型的增强效果。S E GAN采用的最小二乘损失