基于集成学习的乐声分离方法.pdf

资源描述

1、第卷第期年月北京信息科技大学学报 .文章编号:():/./.基于集成学习的乐声分离方法孟晶晶徐雅斌(.北京信息科技大学大数据安全技术研究所北京.北京信息科技大学计算机学院北京)摘要:针对频域乐声分离方法缺失相位信息时域端到端方法无法充分利用时频表示中的声学信息的问题提出了一种基于集成学习的乐声分离方法通过在频域型卷积神经网络()的编码块和解码块之间引入卷积块注意力模块()从通道和空间两方面调整权重增强模型特征提取能力通过提出一种时域端对端分离模型()在编码层中添加全连接子网络和软阈值化层有选择性地提取特征抑制冗余噪声最后通过软投票的策略对两种模型的分

2、离结果进行融合弥补频域模型相位缺失弊端得到更加接近纯净音频的目标音源波形图在数据集上的实验结果表明:改进后的频域网络模型的信号失真比提升了.时域网络模型的信号失真比提升了.经过集成后信号失真比得到了进一步提高提出的基于集成学习的乐声分离方法在分离性能上优于相关单个模型关键词:乐声分离卷积块注意力模块软阈值化集成学习中图分类号:文献标志码:(.):.().:收稿日期:基金项目:国家自然科学基金资助项目()网络文化与数字传播北京市重点实验室开放课题()信息网络安全公安部重点实验室开放课题()作者简介:第一作者:孟晶晶女硕士研究生通信作者:徐雅斌男教授北京信息科技大学学报第卷引言乐声分

3、离是音频处理领域的重要研究内容之一旨在将混合音乐中的歌声与伴奏等音源分离开来是音乐信息检索的关键在歌声识别、旋律提取、歌曲流派分类等领域中有着广泛的应用然而由于音乐的结构复杂背景音乐和歌声相互影响且相比于语音信号来说具有长时间的依赖性使得对乐声分离的研究具有极大的挑战目前主流的乐声分离方法是基于神经网络的乐声分离包括频域方法和时域方法两种频域方法的核心在于由短时傅里叶变换()产生的频谱图网络逐帧地在每个音源的幅度谱上生成一个掩码之后将掩码频谱图与输入的混合相位谱相结合并通过短时傅里叶逆变换()来重建歌声和伴奏的音频文献是卷积神经网络在乐声分离中的首次应用但模型训练难度过大、

4、泛化能力较差由于型卷积神经网络()在医疗影像分割任务中的出色表现等将其引入到乐声分离任务中利用来预测歌声和伴奏所对应的时频掩码进而达到乐声分离的目的等在文献中提出了多尺度多波段密集长短期记忆网络()将双向长短期记忆网络()与密集相结合以包含更多的时序特征然而研究发现相位信息与音频的可懂度密切相关频域方法中相位信息的缺失会对分离性能产生极大的影响文献利用基频和相位畸变特征重构相位文献通过引入相位补偿函数进行相位估计这些方法虽然在一定程度上改善了音频质量但在音频可懂度方面仍有待提高时域方法直接对一维波形信号进行处理有效利用了音频信号的相位信息恰好解决了相位缺失

5、问题文献提出的端到端的乐声分离模型直接将歌曲的原始波形作为模型输入学习原始混合音频与输出音频之间的映射关系文献引入最小超球面能量损失函数进一步提高了的分离性能文献提出的全卷积时域音频分离网络()遵循编码器分离网络解码器的框架通过学习特征表示的基函数代替短时傅里叶变换及逆变换等在文献中提出的重用了来自架构的大步长和大量通道的合成以及层和卷积层的组合并保留了的达到了较好的分离效果注意力机制的广泛使用启发研究人员将其应用于音频信号处理文献在架构的跳跃连接部分设计并引入了注意力门控机制避免了特征拼接过程中的语义鸿沟问题然而不论是

6、频域方法还是时域方法都存在一定的不足之处频域乐声分离方法无法充分利用音频的相位信息且分离性能受制于所采用的理想掩码时域乐声分离方法直接处理时域波形使得模型无法有效利用时频表示中包含的声学信息不难发现由于歌曲中的歌声与背景音乐等多个音源共享一个音轨现有方法大都默认特征图的每个通道同等重要使得背景音乐及其他不相关信息会对人声特征学习的效果产生不利影响同时特征冗余也会导致模型训练时间长尤其在高噪环境下待分离的音频信号更为复杂建模难度也会进一步提高并且模型的泛化能力也很难得到保证通过对现有音源分离方法的研究发现虽然基于时域的分离方法避免了相位缺失以及时频转换问题但无法利用时频表示在乐声分离任务

7、中的优势而频域方法虽然无法充分利用相位信息却能够在幅度谱中更轻易地区分歌声和伴奏两种方法各有优缺点若能进行互补则将有效提升分离的准确率避免歌声过度分离及噪声抑制不足等问题因此本文基于集成学习的方法提出一种将卷积神经网络、注意力机制和深度残差收缩网络相结合的深度学习模型能有效提升分离质量基于集成学习的乐声分离算法集成学习是一种由多个学习器构建而成的用于解决单一预测问题的方法用以提高预测结果的准确性乐声分离作为时间序列分析问题具有数据结构复杂及特征模糊等特点本文将集成学习引入到乐声分离研究中分别使用频域和时域方法来产生乐声分离结果集然后运用集成技术将分离结果集成能够弥补单一分离方法的缺陷

8、避免出现分离不完全问题得到更精确的分离结果本文采用装袋算法()进行集成从训练集中随机有放回地采样分别得到用于频域分离模型和时域分离模型的第期孟晶晶等:基于集成学习的乐声分离方法训练子集以并行的方式训练模型训练子集相互独立能够降低模型间的方差改善其泛化性能算法流程如图所示图集成算法流程由于频域分离模型预测出的是歌声所对应的掩码需要通过后处理结合原始相位进行短时傅里叶逆变换得到歌声波形信号时域模型属于端到端分离模型输出结果为波形信号不需要进行后处理操作对于分离出的歌声由于时域模型直接得到波形其输出的张量表示的是像素点属于歌声的概率而频域模型得到的是语谱图在本文研究

9、中统一利用最终的波形进行集成首先需要统一两者的张量和的大小之后对代表同一类别的两个张量相加后取均值记为然后比较各个值的大小若代表歌声的取值比代表背景音乐的大则确定该像素点的最终类别为歌声从而构建集成后的歌声波形频域乐声分离子网络.频域乐声分离流程在频域模型训练过程中本文首先通过对原始混合音频以及地面真实的目标音源做预处理计算出相对应的幅度谱图然后将幅度谱图作为型卷积神经网络的输入由神经网络预测出待分离音源的掩蔽值用于模型训练的损失函数为掩蔽输入语谱图与目标语谱图之差的范数表示为()()式中:为原始混合音频的语谱图为目标音频语谱图()表示应用于输入的网络模型的输出掩码()表

10、示掩蔽语谱图记为在测试阶段调用训练好的频域分离网络输入混合音频幅度谱计算出掩蔽幅度谱再结合混合音频相位谱经过恢复出目标音频具体分离流程如图所示图频域乐声分离流程.网络结构本文提出的频域乐声分离网络包括编码块、卷积块注意力模块()和解码块三部分其结构如图所示图歌曲的乐声分离频域模型结构网络以混合音频幅度谱图作为输入首先经过层连续下采样二维卷积层逐步减少特征图尺寸降低分辨率然后经过注意力模块来抑制冗余信息使模型关注于更为重要的歌声特征最后再经过层连续上采样二维卷积层将低分辨率的特征图逐步还原为与输入尺寸相同的高分辨率特征图其中在网络的下采样部分每层由一个步长为

11、核大小为的二维卷积、批归一化和激活单元组成在上采样部分每层包含了步长为、核大小为的转置卷积、批归一化和激活单元在编码器和解码器的相同层级的层之间进行跳跃连接将每个卷积层得到的特征融合提高网络各层特征信息的利用率弥补下采样过程中丢失的信息.卷积块注意力模块在网络中引入注意力机制目的是使乐声分离模型更多地关注于歌声特征同时抑制伴奏干扰特征由于频域分离模型以音频谱图作为输入本文选择采用卷积块注意力模块从通道和空间两个维度北京信息科技大学学报第卷来关注待学习特征整个注意过程可表示为 ()()()()式中:为编码块输出特征和分别表示得到的通道和空间注意图时域乐声分离子网络.时域乐

12、声分离模型网络架构本文提出的时域乐声分离模型()的网络结构如图所示模型沿用了的基础框架在编码器部分引入计算阈值的子网络对基线模型编码层的输出特征进行软阈值化构成新的基本模块将原始混合音频作为模型的输入经过编码器、分离网络和解码器输出歌声和伴奏所对应的音频信号在经过编码层的两次卷积后对特征进行软阈值化利用子网络自适应地调节不同特征通道的权重实现对冗余特征的抑制提高模型对歌声特征的学习能力另外在编码层卷积后进行归一化操作通过牺牲内存进一步提高训练速度图歌曲的乐声分离时域模型结构.损失函数为了确定时域模型训练的损失函数本文比较了损失、损失和损失实验结果如表所示实验所用数据集为其

13、中包含首全长歌曲分为训练集和测试集两部分训练集包含首歌曲测试集包含首每首歌曲都由混合音频、歌声、鼓、贝斯和其他组成采样率为.由于数据集较小为保证模型泛化能力需要进行数据增强但音频数据在进行增强时需要保证原有的数据结构不会因为对波形的改变而改变以免产生脏数据影响模型训练因此本文基于音频数据处理库和矩阵数据处理库对音频的时域波形进行微调主要的增强方法有:时移在时间轴上随机对音源波形进行滚动调音对音源随机进行左右声道的交换裁剪将音源按一定大小切分成组按序排列并随机混合不同歌曲的音源翻转随机对音源的波形乘以实现信号的翻转表不同损失函数下模型性能对比损失函数信号失真比信

14、噪伪影比信源干扰比.由表可以看出与采用损失训练的模型相比采用损失训练的模型信号失真比升高、信噪伪影比和信源干扰比降低表明采用损失训练的模型产生了更多的伪影其分离的音源受其他源干扰较大音频质量远不如采用损失训练模型采第期孟晶晶等:基于集成学习的乐声分离方法用损失函数训练的模型其信号失真比、信噪伪影比和信源干扰比都低于采用损失训练的模型经对比最终选取了分离性能最好的损失函数作为模型的优化目标具体表示为()()式中:为包含帧的原始混合音频的波形信号为分离出的歌声波形信号下标表示一个波形的第帧样本.软阈值化大多数信号降噪的研究中都采用软阈值化来实现对噪声信号的抑制软阈值

15、化通过将某个阈值区间内的特征置为而其他特征朝收缩来达到剔除噪声特征的目的本文参考深度残差收缩网络的基本模块利用其中的子网络自适应地学习阈值避免了人工设置阈值带来的不便软阈值化可通过下式表示:()式中:为特征为阈值将卷积计算的结果输入一个全卷积的子网络学习得到一组介于和之间的阈值将其与特征图的绝对值的平均值相乘进行软阈值化即可实现对冗余特征的抑制实验.数据预处理由于频域乐声分离网络以时频谱图作为输入需要通过对原始音频进行预处理生成相应的幅度谱和相位谱可表示为()()()()式中:()为音频时域信号()为窗函数是基函数信号()在时间的可以表示为()与窗函数()的乘积的快速

16、傅里叶变换()主要包含了对原始音频信号的分帧、加窗以及快速傅里叶变换等操作换句话说可以看作是的集合由于歌曲等音频信号通常持续时间较长属于非平稳信号但又具有短时平稳特性所以对原始音频进行切片通常保持每帧的长度为以保证帧内信号相对稳定为了保证帧与帧之间的平滑过渡本文采用有重叠的方法进行分帧重叠度为帧长的/加窗是截断信号与窗函数相乘的过程主要目的是避免分帧后可能产生的非周期信号导致谱线两侧其他频率点上出现假谱影响后续分离精度针对剧烈变化的信号相较于其他的窗函数汉明窗在频率范围内的时间分辨率较高平滑效果好故而本文选用的窗函数为汉明窗可表示为().其它()式中:为窗长.实验环境与模型训练本文所提的分离模型基于如下环境:操作系统.深度学习框架网络框架包含层卷积层其中编码器和解码器各层本文网络采用激活函数本文将扩充的数据集划分为训练集和测试集两部分并且通过有放回采样将训练集划分为两个子集由于数据集中每首歌曲的时长大约为在模型训练阶段将歌曲随机切分为包含个采样点的音频片段作为时域分离模型的输入同时将经短时傅里叶变换得到的幅度谱图进行归一化作为频域分

展开阅读全文