1、第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.1音频信号音频信号 人们之所以能听到各种声音,是因为不同频率的声波通过空气产生振动,对人耳刺激的结果。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,所以称为模拟量。模拟音频信号有两个基本参数:频率和振幅。声源每秒钟可产生成百上千个波峰,每秒钟波峰所发生的数目就是音频信号的频率,声音的频率体现音调的高低 音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模
2、拟音频的数字化过程模拟音频的数字化过程 如果要用计算机对音频信息进行处理,则首先要通过A/D(模/数)转换将模拟音频信号变成数字信号,实现音频信号的数字化。数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制器、编辑器都是数字的。对模拟音频的数字化过程涉及到音频的采样、量化和编码。第2章 数字音频处理技术 0101 0100 0011 0010 0001 0000 1001 1010 1011 1100 1101 000000100100 采样 量化 编码 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 1采样采样 为实现A/D转换,把模拟音频信
3、号波形进行分割,以转换成数字信号,这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。采样频率的选择与声音信号本身的频率之间有关,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音较好地还原为原来的声音。最常用的采样频率有:11.025kHz、22.05kHz、44.
4、1kHz等。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 2量化量化 采样所得到的声波上的幅度值,影响音量的高低,该值的大小需要用某种数字化的方法来表示。通常把对声波波形幅度的数字化表示称之为量化(quantization)。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的采样值归为一类,并赋于相同的量化值。采样信号的量化值采用二进制表示,表示样信号的幅度二进制的位数称量化位数。在相同的采样频率之下,量化位数愈高,声音的质量越好。同样,在相同量化位数的情况下,采样频率越高,声音效果也就越好。
5、第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 3编码编码 所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有效的数据中加入一些用于纠错同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如果有错,可加以纠正。音频信号编码常用的是波形编码方法,它是直接对波形采样、量化和编码,算法简单,易于实现。而且,声音恢复时能保持原有的特点,因此被广泛应用。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 3编码编码 (1)PC
6、M(Pulse Code Modulation)脉冲编码调制 PCM简称脉码调制,可以直接对声音信号做A/D转换,用一组二进制数字编码表示,得到的是未经压缩的音频数据。这是一种最常用、最简单的编码方法。PCM编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量化和还原,而且信噪比高。在解码后恢复的声音,只要采样频率足够高,量化位数足够多,就会有很好的质量。但是,这种对声音信号直接量化的方法编码数据量很大,需要很高的传输速率。在MPC中,声卡都具有PCM编码和解码的功能。激光唱盘(CD-DA)记录声音时就采用这种方法,存储未经压缩的数字音频信号。第2章 数字音频处理技术 2.1数字音频基础数字
7、音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 3编码编码 (2)DPCM(Differential Pulse Code Modulation)差分脉冲编码调制 DPCM编码是利用音频信号的相关性,通过只传输声音的预测值和样本值的差值来降低音频数据的编码率的一种方法。它采用预测编码技术,实现音频数据的压缩编码。因为音频信号一般不会发生突然变化,相邻的语音采样值之间存在很大的相关性,从一个采样值到相邻的另一个采样值的差值要比样值本身小得多。利用预测编码方法建立预测模型,通过预测器对未来的样本进行预测,然后对样本值与预测器得到的预测值之差进行量化和传输。由于这个差值的幅度远远小于
8、样本值本身,需要较少的比特数来表示,这样可以降低数据的编码率,从而使编码数据得到压缩。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 3编码编码 (3)ADPCM(Adaptive Differential Pulse Code Modulation)自适应差分编码调制 在实际使用中,由于输入信号的不稳定性,造成DPCM方法的信噪比大大降低。因此在DPCM编码中加入自适应的方法,就形成了自适应差分编码调制(ADPCM)方案。所以,ADPCM是对DPCM方法的改进,通过调整量化步长,对不同的频段设置不同的量化字长,可使数据得到进一步
9、压缩。ADPCM压缩方案压缩倍率可达25倍,信噪比高,性能优越,因此,多媒体计算机所获得的数字化的声音信息大都采用此压缩方法。MPC的音频卡也提供有ADPCM算法,如将16位的采样值压缩成4位,将8位的采样值压缩成4位、3位或2位。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 4用录音机录制声音文件用录音机录制声音文件 (1)配置好录音设备,选择输入声源。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 4用录音机录制声音文件用录音机录制声音文件 (2)打开“属性”对
10、话框,选择录制音源设备。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 4用录音机录制声音文件用录音机录制声音文件 (3)启动“录音机”第2章 数字音频处理技术 (4)开始录音。结束录音后存为.WAV 文件。2.1数字音频基础数字音频基础 2.1.3 数字音频信息的质量与存储量数字音频信息的质量与存储量 采样、量化和编码技术是音频数字化的关键技术。而采样频率、每个采样值的量化位数以及音频信息的声道数目,是影响数字化音频信息质量和容量的三个重要因素。采样频率越高、量化为数越大、声道数目越多,音频的质量就越高,但存储量就越大。第2章
11、数字音频处理技术 2.1数字音频基础数字音频基础 2.1.3 数字音频信息的质量与存储量数字音频信息的质量与存储量 1音频质量的评价 (1)客观质量的度量 对声波的测量包括评价值的测量、声源的测量和音质的测量,其测量与分析工作,是使用带计算机处理系统的高级声学测量仪器来完成。度量声音客观质量的一个主要指标是信噪比SNR(Signal to Noise Ration),信噪比是有用信号与噪声之比的简称,其单位是分贝(dB)。信噪比越大,声音质量越好。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.3 数字音频信息的质量与存储量数字音频信息的质量与存储量 1音频质量的评价 (2)
12、主观质量的度量 采用客观标准方法很难真正评定编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。主观的质量度量通常是对某编码器的输出的声音质量进行评价。例如播放一段音乐,记录一段话,然后重放给一批实验者听,再由实验者进行综合评定,得出平均判分(Mean Opnion Scose,MOS)。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.3 数字音频信息的质量与存储量数字音频信息的质量与存储量 1音频质量的评价 (2)主观质量的度量 第2章 数字音频处理技术 MOS 质量级别 失真级别 5 优(Excellent)不察觉 4 良(Good)刚察觉但不可厌
13、3 中(Fair)察觉及稍微可厌 2 差(Poor)可厌但不令人反感 1 劣(Unacceptable)极可厌(令人反感)MOS标准 2.1数字音频基础数字音频基础 2.1.3 数字音频信息的质量与存储量数字音频信息的质量与存储量 1音频质量的评价 (3)常用的数字化声音技术指标及音质 第2章 数字音频处理技术 每分钟数据量(无压缩)MB 采样频率 kHz 量化位数 bit 单声道 双声道 常用编码 方法 质量与应用 44.1 16 5.05 10.09 PCM 相当于激光唱片质量,应用于超高保真质量要求 16 2.52 5.05 ADPCM 22.05 8 1.76 2.52 ADPCM 相
14、当 FM(调频广播)质量,可应用于伴音及各种音响效果 16 1.76 2.52 ADPCM 11.025 8 0.63 1.26 ADPCM 相当 AM(调幅广播)质量,可应于伴音或解说词 2.1数字音频基础数字音频基础 2.1.4 数字音频编码标准数字音频编码标准 1G.711 本建议公布于1972年,它给出话音信号的编码的推荐特性。话音的取样率为8kHz,每个样值采用8位二进制编码,推荐使用A律和律编码。本建议中分别给出了A律和律的定义,它是将13位的PCM按A律,14位的PCM按律转换为8位编码。2G.721 该建议公布于1984年,1986年作了进一步修订。采用自适应差值量化的算法对音
15、频波形编码,数据率为32kb/s,用于把64kb/s的A律或律的PCM编码转换成32 kb/s的ADPCM编码,实现对PCM信道的扩容。G.721和G.711标准都适用于2003400Hz窄带话音信号,可用于公共电话网。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.4 数字音频编码标准数字音频编码标准 5MPEG中的音频编码 国际标准化组织/国际电工委员会(ISO/IEC)所属WG11工作组,制定推荐了MPEG标准。已公布和正在讨论的标准有MPEG I,MPEG E,MPEG N,MPEG U。其中MPEG I标准对应于ISO/IEC11172-3(MPEG音频)。这部分规
16、定了高质量音频编码方法、存储表示和解码方法。编码器的输入和解码器的输出与现存的PCM标准兼容。ISO/IEC11172视频、音频的总数据率为1.5Mb/s。音频使用的采样率为32kHz,44.lkHz和48kHz。编码输出的数据率有许多种,由相关的参数决定。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.4 数字音频编码标准数字音频编码标准 6AC-3编码和解码 AC-3音频编码标准起源于由美国的杜比(DOLBY)公司推出的DOLBY AC-1。AC-1应用的编码技术是自适应增量调制(ADM),它把20kHz的宽带立体声音频信号编码成512kb/s的数据流。AC-1曾在卫星电视和调频广播上得到广泛应用。1990年DOLBY实验室推出了立体声编码标准AC-2,应用在PC声卡和综合业务数字网等方面。1992年DOLBY实验室在AC-2的基础上,又开发了DOLBY AC-3的数字音频编码技术。第2章 数字音频处理技术 2.1数字音频基础数字音频基础 2.1.4 数字音频编码标准数字音频编码标准 6AC-3编码和解码 AC-3提供了五个声道从20Hz到20kHz的全通带频,即