硬核音频系列（一）—— 声音信息的表示

关于「硬核音频系列」

千万别被标题所迷惑，这个系列讲的可不是什么高深莫测的理论，或者奇淫巧技骚操作，而是个人在接触数字音频知识以来的切身体会，以及少量代码实践后的学习笔记。在参与公司项目的过程中，先后了解了 PCM 编码、压缩编解码、淡入淡出等知识，因此本系列文章也将按照这个顺序组织，内容偏向入门小白级别，同时结合嵌入式系统的特点，分为三篇记录总结我的音频学习之路：

本篇是系列一，主要梳理数字音频涉及的相关概念，构建基本的理解框架，为后续进一步学习做铺垫，毕竟把事情的来龙去脉弄清楚这才是最硬核的。

声音信息数字化

用代码控制声音这件事情远没有想象中有趣，系统和框架层面做的事情主要是保证音频数据正确处理和输出，音频在形式上与其他数据无异，程序猿更多承担的是加工和搬运工角色，反倒不关心数据内容。但无论如何，对于「声光热力电」此类的模拟量，要想通过写代码解决相关问题，第一步便要把信息数字化，用具体数值来表示（没办法谁让计算机只认冷冰冰二进制）。

PCM（脉冲编码调制）与切蛋糕

将模拟量用数字编码表示，PCM 是一种常见方式。这里需要区分两个概念 —— PCM 过程和 PCM 格式编码：PCM 先是作为是一种「模拟信号数字化手段」，然后才有对应的「音频 PCM 编码」，除此之外，PCM 还能应用在数字电信系统，同时也是数字视频的标准。

模数转换说白了是化连续为离散，在理解 PCM 过程中，只要抓住「对时间划分」和「对数量划分」这两个维度就足够了，一般用 y 轴表示时间，x 轴表示数量（值大小），然后你就可以想象自己在平面坐标系上切蛋糕，竖着切上几刀，横着再切几刀，将平面划分一个个小方块。

再回到音频信号本身，声音本质是振动产生的波动，就拿最简单的正弦波形举例，如何将这样一根优美的曲线，变成一串冷冰冰的数字呢？答案便是 —— 切它！

把正弦波曲线放在直角坐标系「蛋糕」上
距相等间隔竖着切蛋糕多次（采样）
距相等间隔横着切蛋糕多次
所有竖着切到曲线的点往上（或往下）移动至横切刀痕处（横竖交点处）（量化）
依次读出每个点的纵坐标，得到的一串数值便是最终的数字化结果（编码）

通过下面这个动图，你能更好理解我刚刚到底在干嘛：

图1 PCM 转换过程动画

「切蛋糕」其实是一个采集样本（takes samples）、并用样本近似表示原本信息的过程，每切一刀称为一次采样，把连续的波形用切出来的离散采样点表示，然后点连成线替代原始波形，这便是 PCM。然而，如何用有限个点表示原本复杂的波形变化，又是个值得考虑的问题。

几个重要概念（采样率、位深）

图片中为了演示效果更直观，只取了少数的几个点（8 个），转换出来的波形也是惨不忍睹的大锯齿，损失了大量的细节，和原来的信号相去甚远，完全不像啊。要解决这个问题也不难：多切几刀，加大采样密度即可：

图2 PCM 加大采样密度

可以看到在增加了采样点数量后（50 个点左右），虽然波形依然存在锯齿，但至少整体形状有了，也和原始信号更为接近。不妨假设一下，如果继续增加采样点个数，转换出来的结果还原度便会继续提高（音质更好），但总不能一直加吧（采样越多，数据越大，会消耗存储空间），到底要采样几次才比较合适？

采样率（sample rate）

在谈论这个问题之前，必须要有一个计量单位来表示采样的密度或频率，借用表示频率的单位赫兹（Hz），类比得到表示采样快慢的指标 —— 采样率，即每秒对音频采样的次数。

留意两个频率：采样的频率和声音的频率，一个是表示手段的属性，另一个是信息内容属性，两者含义不同但又有所关联（具体联系下面会提到）。

假设上面讨论的波形持续时间为 1 秒，那么第一次那个粗糙的锯齿大方波，在一秒钟内把蛋糕切成了 8 份，是采样率 8Hz 下输出的结果，第二次精细一点的波形采样率为 50Hz。显然，声音波形变换越快、越复杂，正确还原所需采样率也越大，人耳听觉范围最高频率是 20kHz，根据采样定理，对人类来说至少要以 40kHz 的频率进行采样（每秒四万次），才有可能正确还原声音。

因此我们听到的歌曲一般采样率为 44.1kHz，这也是早期 CD 唱片的采样率。另外，还有一种 DSD 格式的音频文件采样率高达 2.82MHz，一首 5 分钟的钢琴曲几百兆大。

越高的采样率在还原时的音质越好，存储数据量也越大，必须结合不同的使用场景，对音质与存储空间/传输带宽做出取舍，常用采样率表格如下：

采样率	用途
8,000 Hz	电话所用采样率，对于人的说话已经足够
22,050 Hz	无线电广播所用采样率
32,000 Hz	miniDV 数字视频 camcorder、DAT（LP mode）所用采样率
44,100 Hz	音频 CD，也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率
48,000 Hz	miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
96,000 或者 192,000 Hz	DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc（蓝光光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用所用采样率
2.8224 MHz	SACD、索尼和飞利浦联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率

位深（bit depth）

前面提到 PCM 过程包括「对时间划分」和「对数量划分」这两个维度，如果说采样率是对时间划分的（竖切蛋糕），那采样位深就是对数量划分（横切蛋糕）。在数字音频中，无论每次采样得到的物理量是多少，最终都要往有限个数值上面去靠。在最小值到最大值的范围内，用间隔相等的整数表示数值大小，表示这些值所需要的二进制位数便是位深。

一图胜千言，下面是采样深度为 4bit 的 PCM 数据量化示意图（共 16 种值大小，同样精度感人）：

图3 4bit量化示意图

不难看出，对任何波形进行 4bit 的 PCM 量化，得到的值输出只有 0-15 这 16 种结果，每个采样值都能用 4 个二进制位表示，共有 32 个采样（采样个数多少由采样率决定），可以用一串数字序列表示图片中这一段正弦波：

7, 9, 11, 12, 13, 14, 14, 15, 15, 15, 14, 14, 13, 12, 10, 9, 7, 6, 5, 3, 2, 1, 0, 0, 0, 0, 0, 1, 1, 2, 3, 5, 6, 7

如果用一个字节表示两个采样，通过 C 语言数组表示同样的波形采样：

char sin_wave[16] = {0x79, 0xBC, 0xDE, 0xEF, 0xFF, 0xEE, 0xDC, 0xA9. 0x76, 0x53, 0x21, 0x00, 0x00, 0x11, 0x23, 0x56};

声道数（channel）

前面的描述都是针对一个声音的情况，但实际使用场景中，许多音频文件都不止包含一个声音，系统能在同一时刻录制/播放的声音个数称为声道数（或通道数）。常常听到的单声道（mono）指的是只有一个声音，而立体声（stereo）能包含两个或以上的声音（像耳机的左右边、家庭环绕影院）。多个独立声道的声音通过不同扬声器同时播放，利用听觉「双耳效应」表现出声音的方向和深度。

要想表示多声道音频，需同时记录多个声源信息，n 声道音频每次采样得到 n 个采样点，由于每一个声道都要占用同大小的存储空间，因此好音质也意味着数据量将成倍增长。下面是上一节示例波形采样数据的双声道版本，一个字节代表同一时刻两个声道上的两个采样值（不同声道采样值紧挨着放置）：

char stereo_sin_wave[32] = {0x77, 0x99, 0xBB, 0xCC, 0xDD, 0xEE, 0xEE, 0xFF. 0xFF, 0xFF, 0xEE, 0xEE, 0xDD, 0xCC, 0xAA, 0x99, 0x77, 0x66, 0x55, 0x33, 0x22, 0x11, 0x00, 0x00, 0x00, 0x00, 0x11, 0x11, 0x22, 0x33, 0x55, 0x66};

相信机智的你一定发现了其中的端倪：这显然是个假的立体声，只不过是把一个声道拷贝了一遍，虽说同时能出两个声音，但这两个声音一模一样，听觉上并不立体，或许只是音量大点罢了。这个例子的目的，是通过在不同声道上放置相同的声音，让你直观了解多声道数据的表示形式：ABCDE(mono) -> AABBCCDDEE(stereo)。

PCM 格式数据

上述的所有数值序列，是直接对声音波形采样量化得到，代表最原始的音频数据，能够存储在计算机中并直接播放声音，称为 PCM 格式数据。在确定了采样率、位深、和声道数后，就能完整描述一段 PCM 格式数据所表示的声音了，在录制和播放声音时，将这些参数设置好，即可实现声音与数据的转换。

PCM 格式数据占存储空间的大小，与音频时长、采样率、位深和声道数都有关，采样率越大、声道数越多，单位时间采样数量越多，位深越大，单个采样值所占空间越大，最终音频整体数据量也就越大。在音频开发中经常遇到数据大小、采样数与音频时长的相互转换，公式如下：

数据大小（Byte）= 采样率 × 音频时长（s）× 声道数 × （位深 ÷ 8）
采样数 = 采样率 × 音频时长（s）× 声道数
音频时长（s）= 采样数 ÷ 采样率 ÷ 声道数

虽然 PCM 数据能够经过采样得到并直接输出播放，计算处理过程简便、精度高音质好，但是一般不会直接存储 PCM 裸数据。主要有两个原因，一是 PCM 格式数据体积过大，可以计算，一首 44.1k 采样率、16 bit 位深、时长 5 分钟的单声道歌曲，就需要 5 × 60 × 44100 × 2Byte = 26,460,000KB = 25MB 存储空间，在如今人手一两 T 硬盘的时代看起来还好，但若是放在在早期的数字随声听设备里，恐怕歌都下载不了几首。

第二个原因是裸数据不便于管理。在计算机里，所有数据都是以二进制存放，形式上完全一样不做区分，先不说如何在一堆二进制里找到正确的音频数据，就算是找到了一段采样值，直接丢给解码器也不能播放，因为不知道对应的采样率、采样位深等参数，就无法正确地把每一个采样值拆分出来，因此还是不能得到原始波形。

针对这两个问题，引出了两个新概念 —— 编码格式和容器格式，具体细节将在硬核音频系列第二篇中详细介绍。

参考资料

脉冲编码调制 - 维基百科，自由的百科全书

t x(t) Pulse Code Modulation (PCM) Consider the analog Signal x(t). - ppt download

采样率 - 维基百科，自由的百科全书

转载：TDM协议 | 91博客

硬核音频系列（一）—— 声音信息的表示

基础概念扫盲，PCM 编码方式