音频DAC基础技术的学习指南-电子发烧友网

由于在音响系统中的重要地位，爱好音响的朋友或发烧友，都会热衷于选择一款好的“解码器”（DAC），而“解码”技术，又总是大家津津乐道或争论的话题。到底哪一种技术更好、更有优势、更适合大家来使用呢？

本文简单罗列和梳理音频DAC的基础技术、分析一些热点，希望能给需要的朋友提供一点有用的信息或提示，或者，能解除一些疑惑。

“解码器”不是解码器

第一件事情，先统一一下名称和术语。我们习惯上称之为“解码器”的DAC，英文的书写是：Digital-To-Analog Converter，意思是：数码-模拟转换器，而真正解码器的英文书写是：Decoder。为了统一而不至于造成误解，以下，DAC或保持其英文缩写（DAC）或称为数模转换器（有的情况下简称为转换器），俗称“解码”则称为数模转换。

最早的转换器不是电的

有记录的最早的数模转换器，可能是18世纪土耳其奥托曼帝国水坝上使用的二进制权水量测量系统，竟然不是在电的领域！

18世纪二进制权水量系统

首次对声音的数模转换是在电话线上，采样频率4kHz

从1753年有电报，大概1825年开始大规模发展起，各种电子数模转换技术开始在通讯系统大量使用。1853年美国发明家 M.B.Farmer 构思了时域分配的多路复用（TDM）的概念来分时使用电报线路。1875年Bell发明电话后，1903年，Willard.M.Miner 获得了用机电旋转多路开关按 4.32kHz 或 3.5kHz 的频度对声音采样然后再还原的多路复用技术的美国专利，用于电话线路，算是第一次有人把数模转换用到了声音上了。

最早的PCM只有5个比特

数模转换的算法，1921年美国西部电气的Paul M.Rainey发明了利用光和光电管实现的PCM（脉冲密度调制）技术，只用了5个比特的数字信号。1937年法国国际电话和电报公司（ITT）的Alec Harley Reeves（再次）发明了使用电子管的PCM，实现了有记录的第一个全电子数模转换器。

数模转换器的处理技术（实现方法）也是从最早机械的、到机电的、光电的、真空管的、逐步地发展到了使用薄膜电阻、晶体管、CMOS集成电路和现在的大规模CMOS集成电路（芯片）。大规模集成电路，给了数据处理很大的便利和空间。

美国ANALOG DEVICES公司的混合信号终端

数模转换器有很多种结构

从数模转换器的结构看，最简单的是串式DAC（又叫Kelvin分压器），就是加上电压的一串电阻，通过数字控制的一组开关接通不同的抽头（电阻），得到不同的输出电压。是Lord Kelvin在1800中叶提出，在1920年代才开始实施的，最先是用电阻和继电器、之后用了电子管来实现的。此后是一串数模转换器的进化的名单：

电流输出的分压式DAC、

二进制权电阻DAC、

R-2R梯形电阻网络DAC、

分段式DAC、

过采样插值DAC、

乘法DAC、

预判非线性DAC、

PWM（脉冲宽度调制）DAC、

环形串行DAC、

和SAR（逐步接近式）ADC（模拟数字转换器）配合的DAC、

Sigma-Delta DAC、

等等。

技术的发展可谓名目繁多，以下讨论重点：

R-2R梯形电阻网络DAC

是一位叫B.D.Smith的人在1953年首先提出，来用于数模转换的。技术的核心，是通过电阻分压，来得到输出信号的值，而电阻分压的网络，是由数字量来控制的，这样实现从数字量到模拟量的转换。

典型的R-2R梯形电阻网络（8位）结构

这是一个巧妙的设计，每个电阻回路（梯级）的阻值都是上一级回路的一半，这样正好实现了二进制加权的运算，与权电阻的数模转换器需要用到大量阻值的电阻相比，R-2R数模转换器仅需要两种阻值的电阻就可以实现，既简单又可靠。

现在的R-2R DAC有单一芯片的方案（如TI的PCM1704，经过激光精密矫正制造，动态范围可以达到112dB），也有使用定制模块的，或者直接在电路板（PCB）上实现，取决于不同的设计，各商家的成品DAC会有很大不同。用于音频数模转换，由于对转换操作和电阻精度要求非常高，在设计方案和制作工艺上都有很高的要求。

TI公司的PCM1704（R-2R）DAC原理图

R-2R DAC的好处

1）电阻是线性的

R-2R是古老和传统PCM数模转换的代表性技术。要在高性能的音频数模转换器上应用，想必是有一个理由的：通过电阻分压进行转换，理论上电阻是线性的，所以不会带来失真和额外噪声。这里， “电阻是线性的” 成为了核心概念。

2）避免过采样和数字滤波

R-2R DAC可以仅通过对网络中电阻的切换来进行数模转换，不需要用到过采样、插值、抽取等数字滤波的手段，避免使用数字滤波器。有人认为，数字滤波会带来所谓的“数码声”（有待证实）。

这样，大家可能会感觉这个技术很合理，但是，作为传统的数模转换技术，R-2R DAC是存在一些问题的：

R-2R DAC的问题

1）差分非线性误差

R-2R数模转换把模拟波形表示为一个幅度信号，半个量化梯度就是精度误差，大信号时的影响不是主要的，在小信号时，影响会变大而不可忽略，不可避免地将产生差分非线性误差，和信号有关联，就成为了失真。因为非线性的程度是跟随信号幅度变化而变化的，所以后期也比较难以处理。

2）过零失真

R-2R数模转换还不可避免地会产生过零失真。每当最高为位电阻上的电压发生变化时（从0到1，或相反），必然会引起输出电压极性的变化（从正到负，或相反），由于电阻误差的存在，外加电阻网络内部的电阻的同时切换，会在过零点引起差分非线性失真和短暂的电涌，产生过零失真。

R-2R DAC的过零失真

3）量化精度

数字音频信号的深度，每增加1位，理论上会增加6dB的动态范围，对于R-2R DAC来说，量化精度的高低将直接决定DAC可以达到的最大动态范围。

通常CD是用16位的数字信号，有96dB的理论动态范围，最低位的信号幅度是满幅度值的1/65536，R-2R DAC处理这样的信号，最高位的电阻误差应该远小于这个比值，最低位位上的信号才是有意义的。现在高精度电阻的误差是 1/1000 ，相当于10位数字信号的最低位上的值（1/2^10=1/1024 ），也就是说，如果使用这样的高精度电阻做R-2R DAC的最高位，10位以上深度的数字信号都是没有意义的，因为那些位上的信号都被最高位电阻上的误差所淹没，DAC的动态范围也不可能达到60dB。现在常常会播放32位的数字信号，最小位的信号幅度是1/2^32=1/4,294,967,296，那么，提出一个问题，电阻网络怎样能够达到这样的精度？

对于R-2R转换，商家常常会尝试一些方法，比如在制造上提高电阻的精度、对电阻网络（特别是最高位、高位的电阻）进行矫正或补偿、等等，尽可能地来提高精度以改善性能。实际上，要实现高性能的音频数模转换，R-2R DAC是需要克服许多难题的。

Delta调制技术标志一个新时代的开始

1950年，就像发明PCM一样，也是法国的ITT公司的实验室，提出了 Delta（增量）调制技术（由量化一个值改为量化一个值的增量），尽管，因为需要高频的支持，在高速数字信号技术出现以前，各种限制阻止了这个技术（和后来的Sigma-Delta调制技术）在高质量音乐方面的应用，但还是标志了，数子音频转换技术的一个新的时代的开始，技术手段从量化信号的幅度转变到量化信号的变化，关注点也从幅度转向了时间。

Sigma-Delta DAC

同年美国Bell电话实验室的C.C.Cutler也获得了差分PCM调制技术的专利（Delta调制可以认为是差分PCM调制的一种简单形式）。1952、1953年，荷兰Phillips实验室也发现了同样的原理，并且提供了许多1位和多位的研究成果。1954年Cutler又获得了非常有意义的过采样和噪声整形的专利，1962年，在Delta调制基础上改进的Delta-Sigma（主要是增加了Sigma-积分）技术由Inose、Yasuda和Murakami正式提了出来，1970年代，AT&T的工程师改称之为Sigma-Delta（可能更正确一些）。从此，数字音频技术正式进入了Sigma-Delta时代。

Sigma-Delta是使用低位（1位或几位）量化和高速采样的技术，简单描述，就是把被采样的输入信号与原先采样的累计量化的信号差值进行比较（Delta），比较后得到的差值（确定是增加还是减少，如果是1位量化，则是1或0），再与上一次累计的量化差值相加（Sigma），再形成以PCM编码的音频信号的数字量，通过高的采样频率，来很好地跟踪输入信号的波形。

数模转换，则是这个过程的逆向操作。

Sigma-Delta技术图示

现代的数模转换芯片，如有名的TI的PCM1794，Cirrus Logic的CS4398，AKM的AK4490等都使用了这个技术，各家公司可能仅仅会在这个技术的基础上做一些改变来达到差异化的目的。

分段式DAC的一个应用

差异化的一个例子，TI公司在Sigma-Delta调制的基础上再加入了分段调制的手段，把原来多位的数字信号，分解为高位和低位两个部分（分段），因为它们分别的作用和效果有所不同，所以可以按不同目的来分别进行处理。PCM1794数模转换芯片做了这样的设计，用来实现出色的动态性能和改善对Jitter（抖动）的容忍度。

PCM1794数模转换原理图

Sigma-Delta是R-2R的一个替代方案

Sigma-Delta数模转换技术是传统PCM（按幅度量化）数模转换的一个替代方案，与之前的R-2R技术相比，美国的Ken.C.Pohlmann在他的《数字音频技术》（第6版）一书中有一段形象化的描述：

“传统的梯形电阻网络转换器就像一行灯泡，每个灯泡都连接了一个开关。比如有16个灯泡，每个都有不同的亮度，可以通过点亮不同的组合来实现2^16或65536种不同的亮度级。不过，各个灯泡光强度上的差异会在输出亮度级上引入误差。任何特定的开关组合可能都不会精确产生所需的亮度。类似地，梯形电阻网络转换器在试图重建音频信号时也会引入误差。

Sigma-Delta技术采用了完全不同的一种方式。它没有使用多个灯泡和开关，而是仅使用了一个灯泡和一个开关，只是简单地靠灯泡的亮和灭来改变亮度。例如，若让灯泡在亮与灭之间不断地切换，并且亮和灭的时间长度相等，则输出就是一半的亮度。如果灯泡点亮的时间增长，则亮度也会增大。类似地，理想情况下Sigma-Delta转换器可以用1个比特表示音频幅度，只需要使用非常快速的切换和非常精确的定时即可。Sigma-Delta技术本身是一种表示音频波形的精确方法。”

或者，更简单地来描述两者最根本的区别，R-2R数模转换是以对幅度量化为基线进行转换的，Sigma-Delta则是以保持幅度不变（1位调制）或基本不变（多位调制：一般为4~6位），而以时间为基线进行转换的。

正因为如此，Sigma-Delta技术可以克服R-2R数模转换技术的缺陷。主要的优势在于：

1）提高量化的精度并在不同幅度上的精度保持一致，误差与信号本身没有关联，就是噪声，可以方便地在后期进行处理；

2）只在时间上对信号进行划分，所以没有过零误差（失真）；

3）通过过采样（插值）、数字滤波（抽取）和噪声整形，降低音频范围带内的噪声，动态范围可较容易地达到120dB以上水准；

4）避免了使用砖墙式的模拟滤波器，以最小化相移和失真。

Sigma-Delta转换技术要点

Sigma-Delta技术通过使用多倍于正常采样频率的高采样频率，把Nyquist频率增加了多倍，采样定理规定Nyquist频率应不低于被采样信号最高频率的两倍，对音频即40kHz。比如CD采用的采样频率是44.1kHz，留出了一些余量。过采样下，Nyquist频率可以高达几百kHz或更高，数字滤波会在Nyquist频率与音频频带之间清理出较大的空间，经过整形后的噪声被最大化地整理到了Nyquist频率以上的频带内，这样就允许用简单平缓的低阶模拟滤波器，来轻松的滤除不需要的噪声，同时最大化地保持信号的幅度和相位不受影响。

过采样和数字滤波带来的效果

克服不足的对策：

1）本底噪声

Sigma-Delta技术中，1比特量化本身是线性的，但是本底噪声将会比较高，如果使用多比特（比如4位），可以降低本底噪声，但会带来元件不一致（失配）导致的失真。一个解决方案是通过动态元件适配（DEM）技术，把不一致的元件进行随机轮换，可以把失配误差的平均值减小到接近于零，失配（失真）就转变为带内的噪声，再通过整形，把噪声转移到带外，动态范围仍然可以保持在较高的水平。这一般是需要芯片制造商在后续作出安排的。

2）频域非线性

可以理解为不同频率下行为不一致的现象。美国的ESS公司提出，在频域仿真中，Sigma-Delta调制器是非常非线性的系统，只能给出大概的性能表现。一个描述为 调制深度问题：大多Sigma-Delta调制不能实现100%的调制深度（满幅度只能到50%），而在调制深度加深时产生的直流分量将导致噪声增加；另一个为 噪声整形时的暂态非线性问题：在信号快速变化时，噪声整形的反馈电路会表现出暂态非线性的行为。

ESS公司也给出了解决方案，对Sigma-Delta调制器在细节上进行了不同的设计，级联独立稳定的低阶调制器，仔细选择集成器区的相对增益，使得削波的发生得到很好的控制。这样，当调制深度接近100%时，各个低阶的调制器都还是稳定的，ESS的HyperStream商标下的Sabre系列的DAC（如ES90xx、ES90xxPRO DAC芯片）的调制器可以达到90%的满幅度值的调制深度，从而来应对上面的问题。

DSD原来是存档的

还要说一下的是DSD。最开始时，DSD并不是作为可提供的格式来使用的。1988年，Sony公司收购CBS/Columbia唱片公司，获得了大量优秀的磁带录音，Sony要把所有的磁带档案转为数字格式的档案，但是并不能确定未来何时会发布新的格式，也不能确定新格式的位数和频率，为了保持灵活性，采用了新的1比特的格式，就是后来大家熟知的DSD，即Direct Stream Digital：直接流数字。

DSD和PCM****的关系

PCM是通用的音频信号格式，大多用Sigma-Delta调制器，将音频信号调制编码成脉冲密度调制（PCM）的数字量（16、20、24或32位），按时间的次序进行排列。采样频率决定了数字量在时间上的排列密度，1981年推出的CD，音频格式是16位的数字和44.1kHz的采样频率。

DSD是另一种音频信号格式，利用很高的采用频率，用Sigma-Delta调制器将音频信号调制编码成1比特的脉冲密度调制（PCM）的数字量。1999年，Phillips和Sony推出的SACD（超级音频CD）使用的1比特的DSD编码（双声道或多声道），采样频率2.8224MHz。比较CD的16位数字和44.1kHz采样频率，SACD中的DSD信号的比特率是CD的4倍。

从上面可以看出，DSD和PCM事实上同属于PCM，但目前习惯上的称呼有着不同的含义。

随着存储媒体的多样化，音频格式也不再局限于CD或SACD的标准，可以有更多选择，相应的DSD信号也可以被转换成多种标准的PCM信号，下表为常用采样频率下可转换的对应关系：

DSD的优点

1）DSD可以实现音频频带内120dB动态范围和100kHz的平坦频率响应。

2）DSD使用高的采样频率，如SACD的2.8224MHz，Nyquist频率也是很高的1.4112MHz，所以不需要在录音过程中进行抽取数字滤波和PCM量化，也不需要在播放过程中使用过采样（内插）的数字滤波器，甚至不需要通过数模转换就可以直接进行播放；

3）使用较简单的转换器，可以降低播放设备的成本。

DSD的不足

1）噪声

DSD信号含有内含有大量的高频噪声，是显著的噪声整形成分，分布在20kHz以上的频带内。如不加处理直接播放，理论上人的耳朵会过滤掉音频频带以外的内容，不会影响到听感，实际上用于播放的模拟放大器会因为这些信号而产生非线性的调制，产生音频频带内的分量，影响到带内的信号，或者这些大量的高频分量会使放大器或扬声器进入过载、饱和等不正常状态；如在将DSD信号转换为模拟信号后，尝试滤除这些高频分量来进行处理，那么在有限的频带空间中要滤除大量的这些高频噪声，需要用到较陡峭的高阶的模拟滤波器，难以避免地会带来频带内信号的严重相移。

DSD信号的噪声频谱

2）难以处理

DSD是1位的数字信号，理论上无法对其进行，比如，利用加入抖动（Dither）的处理方法来优化性能，如要使用其它替代方法，则会变得非常复杂（需要把1位信号转变为如8位的DSD-wide或其它深度的信号再进行繁复的转化处理）且要求处理器有更大的处理能力（DSD信号的密度更大需要更大的处理能力），有些处理可能是无法实现的。

3）转换器的局限

DSD推出时，最好性能的转换器是1位的Sigma-Delta转换器，DSD理所当然地采用了1位的格式，之后的多位Sigma-Delta转换器有更好的动态范围性能，结果就是许多使用较早技术的DSD系统在性能上不如许多现代的PCM系统。

4）失真

信号内含失真是DSD最大的问题。DSD采用了1位的信号格式，噪声整形在1位系统上很难真正有效，实际上整形后的噪声是和信号相关的，就成为了信号中含有的固有失真。

FPGA是下一代的替代方案吗？

FPGA近来成为了音频处理的一个热点。自美国的Xilinx公司在1985年推出全球第一款产品起，FPGA就是一项热门的新技术，它的本质是逻辑电路，通过软件可以改变逻辑电路的组合，因为信号是由硬件直接操作，所以速度就比通常的芯片（需要软件计算的芯片，比如CPU）要快许多。

FPGA可以理解为一项处理技术，也即是实现某技术的手段，而非某技术本身。用于音频数模转换，音频调制的算法需要FPGA通过编程来实现，包括一系列音频处理上的问题，都是需要FPGA这个新的处理技术来作出回答的。

有的是另辟途径，利用FPGA与R-2R梯形电阻网络配合来实现更复杂或更高性能的R-2R数模转换，有的是将FPGA用于数字信号的整形，来减小如Jitter（时基抖动）等的影响。

作为新的热点，核心的问题就是：用FPGA芯片实现的数模转换的性能，是否，会优于用专用数模转换芯片实现的性能？这个处理技术（手段）能够给音频转换技术带来什么突破？或者解决什么问题？可以预见的是，FPGA有可能会在对信号的处理能力上带来好处。目前看，这些都似乎还没有一个统一的说法，在处理音频调制、转换一系列问题的解决方案上，应该也还没有明确的模型。因此，效果尚难判断，这里也很难再做进一步讨论。

小结

R-2R转换器要达到高质量的音频转换性能，需要解决许多难题；通用的FPGA芯片能否胜出专用转换器芯片，还不得而知；Sigma-Delta，自被发明以来的70多年时间里，是最先进的音频转换技术，从1个比特到多比特的进步，更加地改进了转换器的性能，如今在高质量音乐领域仍然有着主导的地位。随着半导体（芯片）处理技术的进步，可用数字音频信号的密度也在不断提升，转换器的性能或许不再是未来的问题，未来也许还有更多的可能，我们拭目以待。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉