1、第 41 卷第 6 期2022 年 12 月Vol.41,No.6Dec.,2022声学技术Technical Acoustics基于深度压缩感知的语音增强模型康 峥,黄志华,赖惠成(新疆大学信息科学与工程学院,新疆信号检测与处理重点实验室,新疆乌鲁木齐 830017)摘要:随着压缩感知的深入研究,压缩感知在语音增强方面的应用也备受关注。针对传统压缩感知语音增强算法中存在的不足,将压缩感知与深度学习结合构建名为基于深度压缩感知的语音增强模型(Speech Enhancement based on Deep Compressed Sensing,SEDCS)。基于压缩感知原理使用编解码模型代替压
2、缩感知中语音信号稀疏过程,使用卷积神经网络代替测量矩阵实现语音信号观测降维过程,通过联合训练的方式实现语音增强。实验结果表明:该模型能够完成语音增强任务,并且与现有的压缩感知语音增强算法相比,该模型能取得较好的语音增强效果;相比利用深度学习的语音增强算法,该模型虽性能一般,但在模型泛化性能和测试阶段的增强时间效率上有一定提升。关键词:语音增强;压缩感知;深度学习;卷积神经网络中图分类号:TN912.35 文献标志码:A 文章编号:1000-3630(2022)-06-0862-09Speech enhancement model based on deep compressed sensing
3、KANG Zheng,HUANG Zhihua,LAI Huicheng(School of Information Science and Engineering,Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region,Xinjiang University,Urumqi 830017,Xinjiang,China)Abstract:With the further research of compressed sensing,the application of compre
4、ssed sensing in speech enhancement has attracted much attention.Aiming at the shortcomings of traditional compressed sensing speech enhancement algorithms,a speech enhancement model based on deep compressed sensing(SEDCS)is built by combining compressed sensing and deep learning.Based on the princip
5、le of compressed sensing,the codec model is used to replace the sparse process of speech in compressed sensing,and the convolutional neural network is used to replace the measurement matrix to realize the measurement and dimension reduction of speech.The speech enhancement of the model is obtained b
6、y jointly training.The experimental results show that the proposed model can complete the speech enhancement task and achieve good speech enhancement effect compared with the existing compressed sensing speech enhancement algorithm.Compared with the speech enhancement algorithm using deep learning,t
7、he performance of the model is general,but it is improved in the model generalization ability and the enhancement time efficiency in the test stage.Key words:speech enhancement;compressed sensing;deep learning;convolutional neural network0引 言语音增强的目的是提高被噪声所干扰的语音质量与可懂度1。目前,语音增强在电话通信、助听设备以及语音识别等领域应用广泛。
8、语音增强的传统方法有谱减法、子空间法、维纳滤波法等1。这些算法一般都基于特定的假设,如噪声是平稳的,但对于低信噪比和非平稳噪声情况下语音增强的效果较差。随着深度学习的发展,深度神经网络被用于构建语音增强模型,以解决传统语音增强算法中对非平稳噪声增强效果差的问题。2014年Goodfellow等2提出生成对抗网络(Generative Adversarial Nets,GAN)并证明了能够通过GAN生成图像样本。Pascual等3将GAN应用于语音增强(Speech Enhancement Generative Adversarial Network,SEGAN),实现了语音信号端到端快速增强,
9、为语音增强提供了新思路。Stoller等4将U-Net网络应用于声源分离(Wave-U-Net),Macartney 等5利用 Wave-U-Net 从带噪语音信号中分离出噪声信号,实现了语音增强,其效果优于维纳算法和SEGAN,并吸引许多学者对Wave-U-Net模型结构进行改进且取得了一定成果6-7。与传统语音增强算法相比,基于深度学引用格式:康峥,黄志华,赖惠成.基于深度压缩感知的语音增强模型J.声学技术,2022,41(6):862-870.KANG Zheng,HUANG Zhihua,LAI Huicheng.Speech enhancement model based on de
10、ep compressed sensingJ.Technical Acoustics,2022,41(6):862-870.DOI:10.16300/ki.1000-3630.2022.06.011收稿日期:2021-03-25;修回日期:2021-06-30基金项目:新疆维吾尔自治区自然科学基金项目(2017D01C044),国家科技部重点研发项目子课题(2018YFC0823402)。作者简介:康峥(1996),男,山西忻州人,硕士研究生,研究方向为语音增强。通信作者:黄志华,E-mail:第 6 期康峥等:基于深度压缩感知的语音增强模型习的算法凭借强大的学习能力可以适应各种噪声类型,克服
11、传统算法所要求的前提条件和低信噪比时去噪性能差的问题,且通过模型训练可有效保留语音特征信息,取得较好的语音增强结果。但基于深度学习的语音增强模型对数据集内噪声的去噪效果较好,而对集外噪声的去噪效果较差。2006年Donoho等8提出压缩感知(Compressed Sensing,CS)理论,在信号处理领域引起了研究热潮,并在图像处理、无线传感领域得到了迅速应用。近几年,CS在语音增强领域的应用也备受关注。Sreenivas等9对语音信号的稀疏表示进行了探索,证明了CS在语音重构上的可行性。随后许多学者对语音信号的稀疏基进行研究并取得了一定进展10-12。基于CS的语音增强算法可以解决传统算法中
12、非平稳噪声去除较差的问题10-12,但是CS要求语音信号必须是稀疏的,即使用少量数据表示目标语音信号,该过程可能会造成原始语音有效信息丢失,从而降低重构语音质量。最近,CS与深度学习结合受到了广泛关注,相关学者们利用深度神经网络实现传统CS中的信号稀疏、观测降维和信号重构过程13-15。Bora等提出利用生成模型代替信号稀疏过程(Compressed Sensing using Generative Models,CSGM)13,实现了图像重构,但该模型较复杂且训练缓慢。谷歌DeepMind 提出了深度压缩感知模型(Deep Compressed Sensing,DeepCS)15,相比CSG
13、M重构质量更好且速度更快。本文提出了语音增强的DeepCS模型框架,构建基于深度压缩感知的语音增强模型(Speech Enhancement based on Deep Compressed Sensing,SEDCS),在增强效果和测试阶段的时间效率上取得了一定的效果。1结合深度学习的压缩感知模型简介1.1压缩感知原理CS在采样的同时压缩信号,可用较少的数据重构原始信号8。设信号为xRN,可通过正交稀疏基矩阵获得信号的稀疏表示,即:x=i=1Nii=(1)其中:是只有k个非零元素的稀疏表示矩阵。信号稀疏处理之后,信号降维获得观测向量m为m=x=(2)其中:为MN维测量矩阵(MN),可以选择随
14、机高斯矩阵等作为测量矩阵,与不相关,且与相乘后获得的矩阵满足有限等距性质(Restricted Isometry Property,RIP),即:(1-k)2222(1+k)22(3)其中,k(0,1)是等距常数。信号重构是一个最优化问题,即:x?=argminxx0,s.t.m=x(4)其中,|0表示l0范数,x?表示获得的重构信号。由于式(4)的求解为N-P难问题,因此将其简化为求解l1范数问题,即:x?=argminxx1,s.t.m=x(5)其中,|1表示l1范数。重构信号常用优化算法为正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法16,而CS只需重
15、构稀疏表示矩阵,再通过逆变换即可得到重构信号x?,因此该算法主要通过迭代优化获得信号的稀疏表示矩阵:?=argmin()-mt2s.t.0k(6)其中,、?分别表示初始稀疏表示矩阵以及更新后的稀疏表示矩阵,mt表示初始观测向量。通过迭代可获得?,迭代次数由稀疏度k决定。最后通过逆变换即可得到重构信号。1.2结合深度神经网络的压缩感知模型信号在稀疏化过程中可能造成信息丢失,为解决此问题,Bora等提出了CSGM模型13,并定义了损失函数:L(z)=G()z-m22(7)其中,z表示潜在随机输入,G表示参数为的生成模型,表示测量矩阵,m表示原始信号通过测量矩阵获得的观测信号。对z进行优化,如果优化
16、后的随机输入z?使损失函数最小,那么x?=G(z?)即为重构信号。但该模型结构复杂,重构速率仍有待提升。为进一步提升CSGM性能,谷歌DeepMind将替换为参数为的神经网络F,并定义了与RIP相关的损失函数以保证 F实现信号观测降维过程15,以下分别是文献15中定义的F与G的损失函数:LF=Ex1,x2(F(x1)-F(x2)2-x1-x22)2(8)LG=Expdata(x)F(G(z)-F()x22(9)其中,x1、x2分别表示从真实数据分布pdata(x)与生成数据分布G(z)采样的数据。DeepCS在重构速度8632022 年声学技术与重构质量上均优于传统CS以及CSGM。2基于深度压缩感知的语音增强模型2.1模型框架受DeepCS模型15启发,本文将基于CS的语音增强算法中语音信号稀疏过程用生成模型代替,即不再需要考虑对语音信号进行稀疏,测量矩阵用卷积神经网络代替,称为测量模型。通过模型训练,直接在时域去除噪声信号恢复出干净的语音信号。设语音信号表示为x,噪声信号表示为n,因此带噪语音信号y可以表示为y=x+n(10)y经过预处理后获得y?,输入生成模型G,可以获得生成语音