1、第 卷 第 期 年 月北 京 信 息 科 技 大 学 学 报 .文 章 编 号:():/./.基于集成学习的乐声分离方法孟晶晶徐雅斌(.北京信息科技大学 大数据安全技术研究所北京.北京信息科技大学 计算机学院北京)摘 要:针对频域乐声分离方法缺失相位信息时域端到端方法无法充分利用时频表示中的声学信息的问题提出了一种基于集成学习的乐声分离方法 通过在频域 型卷积神经网络()的编码块和解码块之间引入卷积块注意力模块()从通道和空间两方面调整权重增强模型特征提取能力通过提出一种时域端对端分离模型()在编码层中添加全连接子网络和软阈值化层有选择性地提取特征抑制冗余噪声最后通过软投票的策略对两种模型的分
2、离结果进行融合弥补频域模型相位缺失弊端得到更加接近纯净音频的目标音源波形图 在 数据集上的实验结果表明:改进后的频域网络模型的信号失真比提升了.时域网络模型的信号失真比提升了.经过集成后信号失真比得到了进一步提高提出的基于集成学习的乐声分离方法在分离性能上优于相关单个模型关 键 词:乐声分离卷积块注意力模块软阈值化集成学习中图分类号:文献标志码:(.):.().:收稿日期:基金项目:国家自然科学基金资助项目()网络文化与数字传播北京市重点实验室开放课题()信息网络安全公安部重点实验室开放课题()作者简介:第一作者:孟晶晶女硕士研究生通信作者:徐雅斌男教授 北京信息科技大学学报第 卷 引言乐声分
3、离是音频处理领域的重要研究内容之一旨在将混合音乐中的歌声与伴奏等音源分离开来是音乐信息检索的关键在歌声识别、旋律提取、歌曲流派分类等领域中有着广泛的应用 然而由于音乐的结构复杂背景音乐和歌声相互影响且相比于语音信号来说具有长时间的依赖性使得对乐声分离的研究具有极大的挑战 目前主流的乐声分离方法是基于神经网络的乐声分离包括频域方法和时域方法两种频域方法的核心在于由短时傅里叶变换()产生的频谱图 网络逐帧地在每个音源的幅度谱上生成一个掩码之后将掩码频谱图与输入的混合相位谱相结合并通过短时 傅 里 叶 逆 变 换()来重建歌声和伴奏的音频 文献是卷积神经网络在乐声分离中的首次应用但模型训练难度过大、
4、泛化能力较差 由于 型卷积神经网络()在医疗影像分割任务中的出色表现 等将其引入到乐声分离任务中 利用 来预测歌声和伴奏所对应的时频掩码进而达到乐声分离的目的 等在文献中提出了多尺度多波段密集长短期记忆网络()将 双 向 长 短 期 记 忆 网 络()与密集 相结合以包含更多的时序特征然而研究发现相位信息与音频的可懂度密切相关 频域方法中相位信息的缺失会对分离性能产生极大的影响 文献利用基频和相位畸变特征重构相位文献通过引入相位补偿函数进行相位估计 这些方法虽然在一定程度上改善了音频质量但在音频可懂度方面仍有待提高时域方法直接对一维波形信号进行处理有效利用了音频信号的相位信息恰好解决了相位缺失
5、问题 文献提出的端到端的乐声分离模型 直接将歌曲的原始波形作为模型输入学习原始混合音频与输出音频之间的映射关系 文献引入最小超球面能量损失函数进一步提高了 的分离性能 文献提出的全卷积 时 域 音 频 分 离 网 络()遵循编码器分离网络解码器的框架通过学习特征表示的 基 函 数 代 替 短 时 傅 里 叶 变 换 及 逆 变 换 等在文献中提出的 重用了来自 架构的大步长和大量通道的合成以及 层和卷积层的组合并保留了 的达到了较好的分离效果 注意力机制的广泛使用启发研究人员将其应用于音频信号处理 文献在 架构的跳跃连接部分设计并引入了注意力门控机制避免了特征拼接过程中的语义鸿沟问题然而不论是
6、频域方法还是时域方法都存在一定的不足之处 频域乐声分离方法无法充分利用音频的相位信息且分离性能受制于所采用的理想掩码 时域乐声分离方法直接处理时域波形使得模型无法有效利用时频表示中包含的声学信息 不难发现由于歌曲中的歌声与背景音乐等多个音源共享一个音轨现有方法大都默认特征图的每个通道同等重要使得背景音乐及其他不相关信息会对人声特征学习的效果产生不利影响同时特征冗余也会导致模型训练时间长 尤其在高噪环境下待分离的音频信号更为复杂建模难度也会进一步提高并且模型的泛化能力也很难得到保证通过对现有音源分离方法的研究发现虽然基于时域的分离方法避免了相位缺失以及时频转换问题但无法利用时频表示在乐声分离任务
7、中的优势而频域方法虽然无法充分利用相位信息却能够在幅度谱中更轻易地区分歌声和伴奏 两种方法各有优缺点若能进行互补则将有效提升分离的准确率避免歌声过度分离及噪声抑制不足等问题 因此本文基于集成学习的方法提出一种将卷积神经网络、注意力机制和深度残差收缩网络相结合的深度学习模型能有效提升分离质量 基于集成学习的乐声分离算法集成学习是一种由多个学习器构建而成的用于解决单一预测问题的方法用以提高预测结果的准确性 乐声分离作为时间序列分析问题具有数据结构复杂及特征模糊等特点 本文将集成学习引入到乐声分离研究中分别使用频域和时域方法来产生乐声分离结果集然后运用集成技术将分离结果集成能够弥补单一分离方法的缺陷
8、避免出现分离不完全问题得到更精确的分离结果本 文 采 用 装 袋 算 法()进行集成 从训练集中随机有放回地采样分别得到用于频域分离模型和时域分离模型的第 期孟晶晶等:基于集成学习的乐声分离方法 训练子集以并行的方式训练模型 训练子集相互独立能够降低模型间的方差改善其泛化性能 算法流程如图 所示图 集成算法流程由于频域分离模型预测出的是歌声所对应的掩码需要通过后处理结合原始相位进行短时傅里叶逆变换得到歌声波形信号 时域模型属于端到端分离模型输出结果为 波形信号不需要进行后处理操作对于分离出的歌声由于时域模型直接得到波形其输出的张量表示的是像素点属于歌声的概率而频域模型得到的是语谱图 在本文研究
9、中统一利用最终的波形进行集成 首先需要统一两者的张量和 的大小之后对代表同一类别的两个张量相加后取均值记为 然后比较各个值的大小若代表歌声的 取值比代表背景音乐的 大则确定该像素点的最终类别为歌声从而构建集成后的歌声波形 频域乐声分离子网络.频域乐声分离流程在频域模型训练过程中本文首先通过 对原始混合音频以及地面真实的目标音源做预处理计算出相对应的幅度谱图然后将幅度谱图作为 型卷积神经网络的输入由神经网络预测出待分离音源的掩蔽值用于模型训练的损失函数为掩蔽输入语谱图与目标语谱图之差的 范数表示为()()式中:为原始混合音频的语谱图 为目标音频语谱图()表示应用于输入 的网络模型的输出掩码()表
10、示掩蔽语谱图记为 在测试阶段调用训练好的频域分离网络输入混合音频幅度谱计算出掩蔽幅度谱再结合混合音频相位谱经过 恢复出目标音频 具体分离流程如图 所示图 频域乐声分离流程.网络结构本文提出的频域乐声分离网络包括编码块、卷积块 注 意 力 模 块()和解码块三部分 其结构如图 所示图 歌曲的乐声分离频域模型结构网络以混合音频幅度谱图作为输入首先经过 层连续下采样二维卷积层逐步减少特征图尺寸降低分辨率 然后经过 注意力模块来抑制冗余信息使模型关注于更为重要的歌声特征最后再经过 层连续上采样二维卷积层将低分辨率的特征图逐步还原为与输入尺寸相同的高分辨率特征图 其中在网络的下采样部分每层由一个步长为
11、核大小为 的二维卷积、批归一化和 激活单元组成在上采样部分每层包含了步长为、核大小为 的转置卷积、批归一化和 激活单元 在编码器和解码器的相同层级的层之间进行跳跃连接将每个卷积层得到的特征融合提高网络各层特征信息的利用率弥补下采样过程中丢失的信息.卷积块注意力模块 在网络中引入注意力机制目的是使乐声分离模型更多地关注于歌声特征同时抑制伴奏干扰特征由于频域分离模型以音频谱图作为输入本文选择采用 卷积块注意力模块从通道和空间两个维度 北京信息科技大学学报第 卷来关注待学习特征 整个注意过程可表示为 ()()()()式中:为编码块输出特征和 分别表示得到的通道和空间注意图 时域乐声分离子网络.时域乐
12、声分离模型 网络架构本文提出的时域乐声分离模型()的网络结构如图 所示模型沿用了 的基础框架在编码器部分引入计算阈值的子网络对基线模型编码层的输出特征进行软阈值化构成新的基本模块 将原始混合音频作为模型的输入经过编码器、分离网络和解码器输出歌声和伴奏所对应的音频信号 在经过编码层的两次卷积后对特征进行软阈值化利用子网络自适应地调节不同特征通道的权重实现对冗余特征的抑制提高模型对歌声特征的学习能力另外在编码层卷积后进行归一化操作通过牺牲内存进一步提高训练速度图 歌曲的乐声分离时域模型结构.损失函数为了确定时域模型 训练的损失函数本文比较了 损失、损失和 损失实验结果如表 所示实验所用数据集为 其
13、中包含 首全长歌曲分为训练集和测试集两部分训练集包含 首歌曲测试集包含 首每首歌曲都由混合音频、歌声、鼓、贝斯和其他组成 采 样 率 为.由于数据集较小为保证模型泛化能力需要进行数据增强 但音频数据在进行增强时需要保证原有的数据结构不会因为对波形的改变而改变以免产生脏数据影响模型训练 因此本文基于 音频数据处理库和 矩阵数据处理库对音频的时域波形进行微调主要的增强方法有:时移 在时间轴上随机对音源波形进行滚动调音 对音源随机进行左右声道的交换裁剪 将音源按一定大小切分成组按序排列并随机混合不同歌曲的音源翻转 随机对音源的波形乘以 实现信号的翻转表 不同损失函数下模型性能对比损失函数信号失真比信
14、噪伪影比信源干扰比.由表 可以看出与采用 损失训练的模型相比采用 损失训练的模型信号失真比升高、信噪伪影比和信源干扰比降低表明采用 损失训练的模型产生了更多的伪影其分离的音源受其他源干扰较大音频质量远不如采用 损失训练模型 采第 期孟晶晶等:基于集成学习的乐声分离方法 用 损失函数训练的模型其信号失真比、信噪伪影比和信源干扰比都低于采用 损失训练的模型 经对比最终选取了分离性能最好的 损失函数作为模型的优化目标具体表示为()()式中:为包含 帧的原始混合音频的波形信号为分离出的歌声波形信号下标 表示一个波形的第 帧样本.软阈值化大多数信号降噪的研究中都采用软阈值化来实现对噪声信号的抑制 软阈值
15、化通过将某个阈值区间 内的特征置为 而其他特征朝 收缩来达到剔除噪声特征的目的 本文参考深度残差收缩网络的基本模块利用其中的子网络自适应地学习阈值避免了人工设置阈值带来的不便 软阈值化可通过下式表示:()式中:为特征 为阈值将卷积计算的结果输入一个全卷积的子网络学习得到一组介于 和 之间的阈值将其与特征图的绝对值的平均值相乘进行软阈值化即可实现对冗余特征的抑制 实验.数据预处理由于频域乐声分离网络以时频谱图作为输入需要通过 对原始音频进行预处理生成相应的幅度谱和相位谱可表示为()()()()式中:()为音频时域信号()为窗函数 是基函数信号()在时间 的 可以表示为()与窗函数()的乘积的快速
16、傅里叶变换()主要包含了对原始音频信号的分帧、加窗以及快速傅里叶变换等操作换句话说 可以看作是 的集合由于歌曲等音频信号通常持续时间较长属于非平稳信号但又具有短时平稳特性所以对原始音频进行切片 通常保持每帧的长度为 以保证帧内信号相对稳定 为了保证帧与帧之间的平滑过渡本文采用有重叠的方法进行分帧重叠度为帧长的/加窗是截断信号与窗函数相乘的过程主要目的是避免分帧后可能产生的非周期信号导致谱线两侧其他频率点上出现假谱影响后续分离精度针对剧烈变化的信号相较于其他的窗函数汉明窗在频率范围内的时间分辨率较高平滑效果好故而本文选用的窗函数为汉明窗可表示为().其它()式中:为窗长.实验环境与模型训练本 文 所 提 的 分 离 模 型 基 于 如 下 环 境:操作系统.深度学习框架 网络框架包含 层卷积层其中编码器和解码器各 层 本文网络采用 激活函数本文将扩充的数据集划分为训练集和测试集两部分并且通过有放回采样将训练集划分为两个子集 由于数据集中每首歌曲的时长大约为 在模型训练阶段将歌曲随机切分为包含 个采样点的音频片段作为时域分离模型的输入同时将经短时傅里叶变换得到的幅度谱图进行归一化作为频域分