面向语音分离的GA＿FastICA算法

资源描述

1、第 27 卷第 6 期2022 年 12 月哈尔滨理工大学学报JOUNAL OF HABIN UNIVESITY OF SCIENCE AND TECHNOLOGYVol.27No.6Dec.2022面向语音分离的 GA_FastICA 算法兰朝凤，陈英淇，林小佳，刘岩，陈旭奇(哈尔滨理工大学测控技术与通信工程学院，哈尔滨 150080)摘要:随着语音处理技术的发展，新的语音分离算法不断地被提出。针对观测信号中噪声而导致分离效果不理想的问题，将几何运算(GA)方法和快速独立成分分析(FastICA)算法结合提出了 GA_FastICA 算法。为探究 GA_FastICA 算法

2、的有效性，绘制了分离后语音信号的时域波形，给出了分离前后语音信号的相关系数。当信噪比为 4 dB 时，分离后语音信号与原始语音信号的相关系数为0.785 2。仿真实验结果表明，在信噪比为 12 dB，factory、babble 噪声条件下，GA_FastICA 算法相较于 FastICA 算法相关系数提高了0.021 2和0.030 4;信噪比为 8 dB 的条件下，相关系数提高了0.137 4和0.132 8。GA_FastICA 算法可有效分离语音信号，在噪声环境下具有较好的语音分离效果。关键词:语音处理;语音分离;独立成分分析;信噪比DOI:10 15938/j jhust 2022

3、06 010中图分类号:TN912.3文献标志码:A文章编号:10072683(2022)06008008GA_FastICA Algorithmfor Speech SeparationLAN Chao-feng，CHEN Ying-qi，LIN Xiao-jia，LIU Yan，CHEN Xu-qi(School of Measurement and Communications Engineering，Harbin University of Science and Technology，Harbin 150080，China)Abstract:With the development

4、of speech processing technology，new speech separation algorithms areconstantly proposed.The GA _ FastICA algorithm is proposed by combining the Geometric Approach(GA)algorithm and Fast Independent Component Analysis(FastICA)algorithm for the problem of unsatisfactoryseparation due to the noise in th

5、e observed signal and combining the geometric operation method.The time domainwaveforms of the separated speech signals are plotted，and the correlation coefficients of the original and separatedspeech signals are given to investigate the effectiveness of the GA algorithm.When the signal-to-noise rat

6、io is 4 dB，the correlation coefficient of the separated speech signal and the original speech signal is 0.785 2.The experimentalsimulation results show that under the signal-to-noise ratio of 12 dB，factory and babble noise conditions，the GA_FastICA algorithm improves the correlation coefficient by 0

7、.021 2 and 0.030 4 compared with the FastICAalgorithm，and the correlation coefficients were improved by 0.137 4 and 0.132 8 for a signal-to-noise ratio of8 dB.The GA_FastICA algorithm can effectively separate the speech signal，and the noisy environment GA_FastICA algorithm can effectively separate s

8、peech signals and has a better speech separation effect.Keywords:speech processing;speech separation;independent component analysis;signal to noise ratio收稿日期:2021 09 17基金项目:国家自然科学基金青年基金(11804068);黑龙江省自然科学基金(LH2020F033).作者简介:陈英淇(1998)，男，硕士研究生;刘岩(1995)，男，硕士.通信作者:兰朝凤(1981)，女，博士，副教授，博士研究生导师，E-mail:lanch

9、aofeng .0引言随着智能家居设备的发展，通过音频信号控制智能设备变成了一种必然趋势，同时也对语音处理技术提出了更高要求1。为了更好的将语音处理技术应用到实际生活中，相关研究人员就语音分离技术、语音识别技术及语音降噪技术等进行了大量研究。语音分离问题最早起源于著名的鸡尾酒会问题2，就如何构建出类似于人脑听觉处理机制，进而从混合语音信号中分离出重点关注的语音部分，以对特定语音识别的目的进行了研究。根据观测信号和源信号数目的不同，可以分成单通道盲源分离算法和多通道盲源分离算法3 6。独立成分分析(Independent Component Analysis，ICA)是多通道分离中一种典型的算法

10、，最早在 20 世纪 80 年代被Jutten 等7 提出，并成功应用在盲源分离领域。此后，许多研究人员在 ICA 的基础上，对提高混合语音分离质量和降低算法计算复杂度等方面提出了一些改进算法8。1999 年，Hyvarinen 等9 提出 FastI-CA 算法，此算法提高了传统 ICA 算法的处理速度。Tahir Ahmad 等10 利用八阶牛顿算法对 FastICA 算法进行了改进，并将此应用到了语音信号分离中，研究表明改进算法具有迭代次数少、收敛速度快的优势。南开大学的朱立娟等11 提出将观测信号特征矩阵联合对角化的预处理的操作，得到初步分离的语音信号，并利用 FastICA 算法对初

11、步分离的语音信号进行处理，得到分离语音信号，研究表明所提出算法在保证分离质量的前提下，减少了算法计算量。非负矩阵分解算法(Non-negative Matrix Factoriza-tion，NMF)同样被广泛地应用在语音分离相关领域。其最早是由 DD.Lee 等12 提出的一种矩阵分解方式，基本思想是将混合矩阵在满足非负约束的限制下分解成两个矩阵乘积，并使其乘积尽可能的接近于混合矩阵13。NMF 算法分离过程简便，且分离结果解释性更强，相对于其它算法具有占用更小存储空间的优点14。典型的 NMF 算法有梯度投影算法和拟牛顿算法15 16。李煜等17 针对传统NMF 算法计算量大收敛速度慢的问

12、题，提出了一种基于投影梯度的 NMF 算法，通过增加相关约束条件减小了信号的重构误差，提高了算法的收敛速度和信号分离效果。刘忠健等18 针对基于乘性迭代NMF 算法收敛速度慢的问题，提出了一种非负矩阵分解的 NMF 算法，提高了 NMF 算法的收敛速度。卢宏等19 针对 NMF 算法在欠定盲源分离方面的限制，在 NMF 算法中增加行列式约束及稀疏性约束的限制条件，实现了 NMF 应用于欠定盲源目标的分离。王艳芳等20 将 NMF 和 FastICA 算法相互结合，利用 NMF 算法，通过观测信号幅度谱得到源混合信号的估计矩阵，而后利用 FastICA 算法实现源信号的分离，研究表明比传统 Fa

13、stICA 算法提高了算法的运行速度。在语音分离的过程中难免会混有噪声干扰，如何有效去除和抑制噪声是语音增强技术探究的目标，有学者对低信噪比(signal-to-noise ratio，SN)条件下，提高目标语音的可懂度和质量做出了研究。常用语音增强方法主要分为时域方法和频域方法。时域处理方式在语音分离过程中，难以在低SN 环境下做到对滤波器参数的准确预测，语音增强效果不理想;频域常用的算法有谱减法、维纳滤波、自适应滤波法等。其中，传统谱减法是当噪声信号与短时平稳语音信号相互独立时，利用混合语音功率谱和噪声语音功率谱做减法得到纯净语音功率谱，但在实际应用过程中，传统谱减法会在 SN 为0 dB

14、左右出现信号失真情况，但针对此问题可应用语音增强的几何运算(geometric approach，GA)方法21，重新构造出纯净功率谱和带噪功率谱间的增益函数，利用此增益函数求解纯净语音功率谱，弥补了传统谱减法信号失真的弊端。上述学者的研究使语音分离、语音增强技术取得了巨大的进步，但语音增强技术主要讨论的是在低 SN 环境下对噪声的抑制效果，没有考虑将目标语音信号进行分离，更加没有考虑分离多路有用语音信号情况。同样，语音分离问题也没有考虑到在观测信号中混有噪声时算法的适用性。本文针对上述研究内容存在的缺陷，考虑到人们运用语音分离技术控制智能设备时并不能保证周围环境完全安静的情况，基于 GA 算

15、法进行第一阶段降噪处理，将处理后信号利用 FastICA 算法进行音源分离，提出了GA-FastICA 算法，用于探讨含噪声情况下的语音分离问题，实验研究了不同 SN 环境下本文算法与FastICA 算法、基于二值掩蔽的语音信号分离算法(ideal binary mask，IBM)及四阶矩盲识别算法(fourth-order blind identification，FOBI)的语音分离效果。1GA_FastICA 算法1.1FastICA 算法假定输入语音信号为 s(t)，则观测信号 x(t)可18第 6 期兰朝凤等:面向语音分离的 GA_FastICA 算法表达为x(t)=As(

16、t)(1)式中:A 为 n n 矩阵(n 为通道数)，称为语音信号混合矩阵，s(t)为 n 个元素构成的向量，可表达为s(t)=s1(t)，s2(t)，sn(t)T。观测信号可写为x(t)=x1(t)，x2(t)，xn(t)T。FastICA 算法实现的最终目标是找到解混矩阵W，使分解后的信号能够重新恢复出原始输入语音信号，满足如下关系:y(t)=Wx(t)=WAs(t)s(t)(2)式中:y(t)为恢复出来的原始语音信号，其可表达为:y(t)=y1(t)，y2(t)，yn(t)T。计算过程中，主要使解混矩阵 W 作用在观测信号 x(t)上，令得到结果 y(t)的非高斯性达到最大，达到接近原始信号 s(t)的目的。利用负熵来衡量 y(t)的非高斯性，负熵越大，表示信号的非高斯性越强。负熵可表达为J(y)=E(G(y)E(G(v)2(3)其中:G 代表非线性函数;v 代表的是满足均值为 0、方差为 1 的高斯随机变量。若令 y(t)=WTz(t)，z(t)代表的是观测信号经白化处理过的信号，则式(3)可表达为J(y)=E(G(WTz)E(G(v)2(4)通常，设定独立成分的方差为E(G(

展开阅读全文

面向语音分离的GA＿FastICA算法_兰朝凤.pdf