网络摄像机中的音频功能

音频功能基本已成为网络摄像机的标配。具有音频功能的网络摄像机通常提供内置麦克风/拾音器，或者提供音频输入的接口，用户可以选择使用其他类型或更高质量的外置麦克风/拾音器。
另一方面，网络摄像机还可以内置扬声器或者提供音频输出接口，用户可以选择接入其他类型的扬声器/喇叭。

音频工作模式

根据应用，可能需要单向或双向发送音频，这可以同时完成双向的音频传输或者一次一个方向。
音频通信有三个基本模式：

单工模式，只能单向发送音频。
大多数情况是从摄像机发送音频，当然也可以是从用户处发送。
半双工模式。表示可以从摄像机和操作员双向发送和接收音频，但一次只能一个方向。通信的类型与对讲机类似。要讲话的时候，操作员必须按住通话按钮。松开按钮可使操作员接收来自摄像机的音频。使用半双工，不存在回声问题的风险。
全双工模式。意味着用户可以同时发送和接收音频（同时听和说）。该通信模式与电话对话类似。全双工需要客户端PC能够处理全双工音频。

音频编码

采样率、采样大小

声音是一种能量波，具有频率和振幅的特征。频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，声音要通过网络进行数字化传输或者保存，先要进行编码，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值。
很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz，很多安防摄像机音频编码默认的采样率也是44.1KHz。
光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为1-8，但我们只使用2bit的采样大小，结果我们只能保留4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

音频码流的计算

音频码流 = 采样率值×采样大小值×声道数 bps。
一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的码流则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8，就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M。
这个数据量是很大的，要降低数据量，只有2种方法，降低采样指标和压缩。降低指标是不可取的，那就只能采用压缩编码的方式了。

编码算法

现在已有很多音频压缩编码的方法，大体上可以分为三类：波形编码、参数编码以及混合编码。这里就不展开了，想要具体了解的可以访问阅读文后的参考资料。

常见音频编码算法比较

技术	算法	标准	码率(KBIT/S)	质量	应用领域
波形编码	PCM	G.711	64	4.8	PSTN、ISDN
	ADPCM	G.726(G.721,G.723)	40/32/24/16	4.2	-
	SB-ADPCM	G.722	64/56/48	4.5	-
参数编码	LPC	-	2.4	2.5	保密语音
混合编码	CELPC	-	4.8	3.2	民航
	VSELPC	GIA	8	3.8	移动通信、语音信箱
	RPE-LTP	GSM	13.2	3.8	-
	LD-CELP	G.728	16	4.1	ISDN
	MPE	MPE	12.8	5.0	CD

编码标准

这里重点介绍下一些常见的音频编码格式，特别是安防监控系统里经常用到的。音频一般是伴随着视频一起存在的，所以同视频编码，音频编码主要也是由这两个机构来指定标准的（参见：H.265视频编码技术一文。），一个是ITU-T，另一个是ISO/IEC MPEG。
ITU-T指定的音频编码主要是G.7xx系列，ISO/IEC MPEG是MPEG-1,-2,-4系列。

PCM

在计算机应用中，能够达到最高保真水平的就是PCM编码，标准由ITU-T制定。被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件。PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，但PCM也只能做到最大程度的无限接近。一个双声道的PCM音频流（采样率为44.1KHz，采样大小为16bit）的码率是固定值： 44.1K×16×2 =1411.2Kbps。

G.711

采用对数PCM（logarithmic pulse-code modulation）抽样标准，用脉冲编码调制对音频采样，采样率为8k每秒，码率为64kbps，理论延迟：0.125msec，品质：MOS值4.10。
G711是主流的波形声音编解码器。G711标准下面有两种压缩算法，一种是u-law algorithm(又称offien u-law ,ulaw,mu-law)，即G.711u，主要运用于北美和日本；另一种是A-law algorithm，即G.711a，主要运用于中国，欧洲和世界其他地区。其中，后者是特别设计用来方便计算机处理的。
G711的压缩比为固定值： 8/14 = 57% (G.711u) ，8/13 = 62% (G.711a)。

ADPCM(G.726)

PCM是不压缩的，通常数据量比较大，ADPCM(Adaptive Differential Pulse Code Modulation)、自适应差分脉冲编码，能将音频数据进行压缩，以减少带宽和存储的压力。G.726是ITU-T定义的音频编码算法，实质就是一个ADPCM。G.726在G.721和G.723标准的基础上提出，可将64kbps的PCM信号转换为40kbps、32kbps、24kbps、16kbps的ADPCM信号。

G.722

G.722是支持比特率为64，56和48kbps多频率语音编码算法。在G.722中，语音信号的取样率为每秒16000个样本。与3.6kHz的频率语音编码相比较，G.722可以处理频率达7kHz音频信号宽带。G.722编码器是基于子带自适应差分脉冲编码（SB-ADPCM）原理的。信号被分为两个子带，并且采用ADPCM技术对两个子带的样本进行编码。

G.728

G.728是一个基于低迟延码激励线性预测(LD-CELP)压缩原则16 kbps 的压缩标准，并且有0.625 ms 的算法编码延迟。

G.729

G.729编码方案是电话带宽的语音信号编码的标准，对输入语音性质的模拟信号用8kHz、采样，16比特线性PCM量化。G.729A是ITU最新推出的语音编码标准G.729的简化版本。不同于完全自由使用的G.711，使用G.729是需要付费的。

LPC

线性预测编码（LPC,linear predictive coding）是主要用于音频信号处理与语音处理中根据线性预测模型的信息用压缩形式表示数字语音信号谱包络（spectral envelope）的工具。它是最有效的语音分析技术之一，也是低位速下编码方法高质量语音最有用的方法之一，它能够提供非常精确的语音参数预测。
LPC所需频宽为2Kbps-4.8Kbps。

CELPC

CELPC：Code Excited Linear Predictive Coding，码激励线性预测编码，属于声编码器类。这类编码器从时间波形中提取重要的特征,它在低比特率编码器中最适用。制定者：欧洲通信标准协会（ETSI），所需频宽：4～16Kbps的速率。

MPEG系列

MPEG Audio分为MPEG-1和MPEG-2两大类。每大类又可分为Layer1、Layer2和Layer3三层。
不同层的MPEG-1音频编码方式之间的主要区别从外部看来是对音频文件的压缩率和要求播放媒体提供数据的速率不同，并且内部采取的算法也有很大的不同，基本上是随Layer数增大而越来越复杂。
经Layer1编码的音频文件后缀为MP1，另外两种分别为MP2和MP3。
MPEG-2的新的音频特性是“低采样频率的扩展”和“多声道扩展”。“低采样频率的扩展”是指为那些限制了带宽需求的位速率非常低的应用系统服务的场合，新的采样频率是16，22.05或24kHz，位速率扩展到8kbps以下。“多声道扩展”是指服务于那些拥有5个主要声道（左、右、中置、左环绕和右环绕）的环绕声系统，有的环绕声系统甚至还要额外加一个低频增进声道来处理低频音信号，对这种系统，“多声道扩展”允许包含直至7个声道。
MP1所需频宽384kbps（压缩4倍），MP2为256～192kbps（压缩6～8倍），MP3为128～112kbps（压缩10～12倍）。
MPEG-4的音频编码主要由AAC，AAC+，VQF等。

AAC

AAC（Advanced Audio Coding），又称ACC。中文名：高级音频编码。出现于1997年，基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、索尼等公司共同开发，目的是取代MP3格式。
2000年，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC，又称为MPEG-4 AAC。
AAC-LC：低复杂性高级音频解码。是低比特率、优质音频的高性能音频编码解码器。AAC-LC比特率最高每通道256kbit/s，采样率8至96kHz。
AAC-HE：高效性高级音频解码，又称AAC+。注重于低码流的编码并很适合多声道文件，混合了AAC与SBR技术。SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。

安防摄像机中的音频

安防摄像机里，海康支持G.722.1、G.711ulaw、G.711alaw、MP2L2（MPEG2-Layer2）、G.726、AAC、PCM和MP3编码。
宇视支持有G.711U、G.711A和ACC-LC三种格式，其中G.711U和G.711A两种格式的采样率只支持8K，ACC-LC则支持8K/16K/48K三种。

输入输出类型

摄像机的音频输入类型一般可选择Line in和Mic in，如果使用有源拾音器，选择Line in，如果使用无源麦克风，选择Mic in。
连接网络摄像机的音频输入时，建议使用3.5mm单声道麦克插头；若使用双声道麦克插头时，需注意将有效信号接左声道（L）线。
音频输出时，建议使用3.5mm双声道的耳机或音箱插头。

音频线

音频线一般采用4芯屏蔽电线（RVVP）或非屏蔽数字通信电缆（UTP），导体截面积要较大，如0.5平方。推荐音频线采用带屏蔽的专用音频电缆，电缆长度为100m。常见的音频电缆有：RCA通用音频电缆和普通同轴电缆。

参考资料：