1、文章编号:()收稿日期:作者简介:覃龙靖(),男,硕士研究生;王鑫,女,副教授,通信作者,:;谢凌云,男,副研究员,硕士生导师,并列通信作者,:三维声双耳渲染算法的客观评测与分析覃龙靖,王鑫,谢凌云(中国传媒大学 音乐与录音艺术学院,北京 ;中国传媒大学 媒介音视频教育部重点实验室,北京 )摘要:本文对种双耳渲染算法进行了客观评测。首先对双耳信号提取双耳特征和单耳特征,并进行特征选择和降维,最终选择岭回归建立了总体评价和其二级维度,即音质、定位和空间感的客观评测模型,并探究了主观感知和客观参数之间的关系。实验结果表明,将实验信号时频域特征的双耳差值用于客观评测模型可以获得理想的拟合效果;对于音
2、质的感知,与频域能量相关的特征是最为重要的影响因素;变化丰富的双耳线索和双耳间频谱信息的变化差异性对于定位和空间的感知有较为显著的影响。关键词:三维声;双耳渲染算法;客观评测;双耳交互作用中图分类号:文献标志码:研究背景虽然以影院为代表的全景声技术(如 、等)已经应用多年,但此类基于扬声器阵列的三维声重放系统在日常生活中难以获取,因此将三维声技术实施双耳可听化处理会更加符合人们日常使用的需求,同时这也对三维声双耳渲染效果的评价提出了新的挑战。音频评价方法通常分为主观评价和客观评价。主观评价方法往往费时费力且对测试条件和人员要求较高,而客观评价方法效率更高且更易实施。本文旨在对种不同的三维声双耳
3、渲染算法进行客观评测,并探究主观感知和客观参数之间的关系,为未来三维声双耳技术的评测和改进提供参考。通常来说,评测音频的客观方法分为有参考音频和无参考音频两种。目前国际上唯一的数字音频质量客观评测标准 中采用的 ()算法就属于有参考音频的一类。该建议的主要目的是考察数字音频系统压缩、传输等过程带来的质量损失。随后有大量基于 或与其相类似的改进模型出现,如 、等。但这类评测方法主要针对独立声道进行评测,无法考察多声道系统中各个声道间的相关信息。而不同于传统的音频客观评测,三维声技术除了注重音频质量的好坏,还关注声音空间的还原。因此合理评测三维声重放的整体效果还需要考量其空间属性。三维声评价所涉及
4、到的维度更加复杂,目前已有一些研究在建立三维声客观评测系统的任务上做出探索,但还尚未建立针对三维声进行评测的国际标准。人耳对声音空间属性的感知包括声音的定位和空间信息的感知,主要是基于双耳效应,通过头相关传递函 数(,)来 实 现 的。双 耳 效 应 通 常 是 指 双 耳 时 间 差(,)和双耳强度差(,)等,而 则是表征人耳获取声音空间信息和听觉定位信息的综合函数。因此,对多声道重放系统的效果、空间印象双耳感知的研究也多从以上方面入手。在音乐厅声品质评测中,采用 制式话筒和人工头获取待测音频信号,通过主客观关联发现视在声源宽度和空间包围感与侧向声能比及双耳互相关函数密切相关。然而由于声源的
5、定位信息需要通过 来获取,这在纯声音节目测试中很难实现。等在进 行 多 声 道 信 号 听 觉 属 性 和 物 理 参 数 关 联 性 的 研 究 中 发 现,双 耳 互 相 关 系 数第 卷第期 年月复 旦 学 报(自然科学版)()DOI:10.15943/ki.fdxb-jns.20230208.005(,)与 空 间 感 呈 负 相 关;侧 向 声 能 比(,)与包围感呈正相关;明亮度与高度感显著相关。他们进一步发现相比古典音乐,流行音乐中清晰度与空间属性联系紧密,离散的声音事件有利于展宽整体声源宽度,但对 和 影响并不大。等提出的评估音频空间质量的 模型将空间质量分为定位感和空间感两大
6、类,通过人工头拾取以不同角度播放的宽带粉红噪声并计算分频 、信息,再比对 库中的 、信息来估计声源的角度,以此评估系统重放具有明确定位感的前方声源的效果;而对不相关、不突出的后方环境声重放效果采用双耳效应参数、单耳声学参数进行评测。该研究发现 、声源角度偏差值、单耳信息熵对模型影响最大。胡瑞敏等提出的双耳三维声客观评测方案中音质评测部分采用 方法,水平声场评测采用 、和 ,高度感知信息则通过比对测试信号频谱与 库的频谱波峰波谷相似度来估计。马士超 提出从定位准确度来评价双耳音频系统效果,将测试信号双耳渲染后进行反卷积获取其 ,比对 数据库来估计声源角度,根据渲染后声源角度和目标角度的差距来计算
7、沉浸式音频指数(,)。等 运用人工头和助听器对不同三维声渲染算法的定位特性进行了对比,分析的主要声学参数包括不同频带的 、。综上所述,目前已有的三维声客观评测系统多以参考音频为基准,或者需要特定的测试信号,评测经过待测系统处理后信号的音质的损失程度以测量重放质量。而在三维声技术中,无论是拾音制式、重放格式或者双耳渲染算法的评测都很难定义参考音频。如何准确地定义参考音频,有效地比较不同算法的优劣也是目前研究面临的一个难题。另外,在市场应用中,受众听到的往往是节目信号而不是测试信号,如何直接对比双耳节目信号的效果、对待测信号提取有效的表征双耳信息的特征,实现声音空间信息的客观评测成为关键问题。因此
8、本文以种渲染算法获得的声音节目信号为评测源,在对双耳信号进行双耳特征和单耳特征计算的基础上,进一步将单耳特征进行双耳信号间的差值计算,通过特征选择和降维等处理,分别建立了总体评价、音质、定位和空间感个感知维度的客观评测回归模型,为今后进行三维声双耳渲染算法的客观评测提供科学依据。主观评价实验主观评价实验数据集的建立本次客观评测模型所使用的主观数据是通过主观评价实验获得的。其他三维声主、客观评价实验通常使用 个声音节目,并通过不同处理方式获得 个左右的样本数量,因此本实验选取了段音乐节目信号,分别经过种不同渲染算法处理,按照 标准进行响度归一化处理,之后由位专业人员进行人工微调确保响度一致性。所
9、有音乐片段均为 或者 的多声道信号,时长约 ,类型涵盖电子音乐、真人电影、流行音乐、弦乐四重奏、音效电影和阿卡贝拉。种渲染算法的选取原则是尽量涵盖市面上的双耳渲染算法类型。每种算法的渲染方式不同(其方法指整个信号处理链路,包括采用特定的 进行空间化、不同声道电平比例加权、其他后处理效果优化等),得到的双耳信号听感差异明显。其中两个算法为知名公司开发的基于 的双耳渲染算法,其基本原理是将多声道信号与对应方位的头部相关联的冲激响应(,)进行卷积以实现双耳声合成 ,但不同算法中额外的信号处理方式会使得音质保真度、空间感、头中定位感等方面差异明显;第种渲染算法是在渲染过程中引入了 编解码技术,此方法运
10、用球谐函数将多声道信号分解成高阶 信号 以建模球形声场,再将各方向上重建后的信号通过优化的 进行渲染以获得双耳信号,而因为 技术让听音视角旋转变得十分容易,其也在虚拟现实(,)等空间音频领域中被大量采用;第种为基于虚拟半球幅度平移算法进行的双耳渲染算法,其运用水平面重放也能产生高度感知的心理声学效应,通过正左、正右、正前、正后方个声道来构造虚拟的高度声源,进一步采用双耳房间脉冲响应(,)滤波器渲染该个声道获得虚拟半球空间的双耳信号,该方法的特点在于其并不是为了精准重建声源位置,而是利用心理声学效应产生合理的三维声像定位;最后一种渲染算法是将多声道信号通过加权合并直接线性变换得到双声道信号的下混
11、算法。复 旦 学 报(自然科学版)第 卷被试人员与实验流程本次实验共招募被试约 名,年龄均在 岁到 岁之间,其中男生 人,女生 人。所有被试均为中国传媒大学的在校学生,听力水平正常,专业以音乐学和录音艺术为主,均有年及以上专业音乐学习背景或录音混音经验。主观评测实验在标准的专业审听室进行,扬声器采用真力 系列监听扬声器,扬声器摆位符合 标准。耳机重放系统选用森海塞尔的 监听耳机,与 声卡连接。在正式实验时,被试首先多次聆听多声道扬声器版本信号作为参考音频,随后根据不同渲染版本与参考音频之间的听感差异,对不同双耳渲染信号在不同维度上进行分值为 的打分。被试可多次随意重复比较,每次实验时长约,实验
12、中途休息 并填写调查问卷。评价维度包含个级别:一级维度是总体评价;二级维度包括音质、定位和空间;三级子维度分别包含各个二级维度下更加细微的描述维度,例如清晰度、明亮度、声源宽度等。本文的客观评测部分主要针对一级和二级评价维度。主观实验数据处理实验完成后对获得的实验数据进行有效性检验。首先检验被试的重复信度,计算被试对算法的重复信号在各个评价术语上两次打分的标准偏差均值,如果该值小于,则认为该被试个人信度良好,数据可靠,可作后续处理分析。为了消除不同被试打分的差异性,对经过重复信度检验后的数据进行归一化处理。随后计算克朗巴哈系数(),进行被试间一致性信度检验,剔除一致性差的被试结果,最终保证所有
13、实验信号的克朗巴哈系数都在 以上。经重复信度检验和一致性信度检验后,最终保留的有效被试共 人次,其中音质组 人次,定位组 人次,空间组 人次。客观特征计算客观评测所使用的音频数据是在主观实验环境下,采用声望 双耳麦克风,对多声道扬声器重放信号和耳机重放的双耳渲染信号进行真人录制的双耳信号。所有软、硬件设置与主观实验保持一致,最终得到 条待提取客观特征的声音样本。声学客观特征提取包括了双耳特征和单耳特征两个大类。双耳特征主要包含与空间感知相关的信息,比如声场宽度、声音包围感以及声源定位等。单耳特征主要针对音频信号的时频特性进行分析,主要表征了音色和能量等方面的信息。特征提取的完整流程包括:声道分
14、离、分频滤波、分帧、加窗取频谱、特征计算、特征值统计。信号的帧长为 ,帧移为 重叠。对每帧数据计算如下双耳特征和单耳特征。双耳特征双耳互相关系数():表征双耳信号之间的相似性,通过信号的互相关计算得到。双耳信号越相似则越表现趋近于单声道,人听起来声场越窄,包围感越差,由于人耳对不同频段 感知特点不同,因此分个不同频段计算 ,分别是 、。双耳强度差():表征双耳信号之间能量大小的差异,通常与声源定位的感知密切相关。由于不同声音成分占据的主要能量频段不同,同样采取上述分频计算。侧向声能比():根据录音制式的和差信号变换原理,得出侧向声能和整体声能的比例。侧向声能占比越大,往往人对声场感知越宽,同样
15、采取上述分频计算。单耳特征单耳特征的提取基于 默认算法获得。由于合并声道会带来不可预测的相位抵消问题,导致计算结果可能出现较大的失真,因此分别对左、右耳信号单独提取特征。本文中提取如下参数:均方根(,)、短时过零率()、频谱滚降()、频谱通量()、明亮度()、粗糙度()、频谱规则度()、频谱质心()、频谱方差()、频谱偏态()、频谱峰度()、频谱平滑度()、频谱信息熵()、频率倒谱系数()、)、低 能 量 占 比()总计 类特征。其中 、还同时进行了分频带特征提取,频带划分规则与双耳信号相同。第期覃龙靖等:三维声双耳渲染算法的客观评测与分析统计特征特征值的完整计算流程如图所示。步骤,对每一帧信
16、号计算得到的特征值,图中底层计算步骤表示的即为对音频数据(完整的信号)进行分帧获取特征值并向上传递进行初步统计计算的过程。根据 的研究,人耳听觉会整合的时长进行声音信息的感知。步骤,根据听觉记忆的短时感知特点对短时片段中的统计特性进行计算,分别计算各特征值在内的动态范围、均值和方差。步骤,对所有短时片段的个统计值进行全局的均值和方差计算。这样,每个双耳或者单耳特征就会衍生出维统计特征(除外,因为该特征不是按帧计算,而是按短时片段进行计算)。最终得到的所有客观特征如表所示。图统计特征的计算流程 表所有客观特征的列表 特征名特征中文名称分频类型频带数条统计特征维数维合计维数维 双耳互相关系数分频 双耳强度差分频 侧向声能比分频 均方根全频 短时过零率全频 频谱滚降全频 频谱通量全频 明亮度全频 粗糙度全频 频谱规则度全频 频谱质心全频分频 频谱方差全频分频 频谱偏态全频分频 频谱峰度全频分频 频谱平滑度全频 频谱信息熵全频分频 频率倒谱系数全频 频率倒谱系数阶差分全频 频率倒谱系数阶差分全频 低能量占比全频 复 旦 学 报(自然科学版)第 卷客观评测模型特征筛选在建立每一个维度的回归模型前