安防摄像机的内部结构

前面章节说过，按照输出视频信号的不同，我们可以把安防摄像机划分为模拟，数字，网络三大类。不同类型的摄像机内部组成和机构会有差别，比如模拟，数字摄像机，只有图像处理而没有视频图像编码部分。

此处介绍摄像机内部的结构和组成，为简便起见。从整体上看我们可以把安防摄像机的内部分为图像采集，视频图像处理及编码，图像输出三大块。

典型的网络摄像机的内部结构

图像采集

摄像机的图像采集工作主要由镜头和芯片上的图像传感器来完成。光线经镜头，进入到芯片上的sensor。sensor负责把接收到光信号转化成电信号，然后交给芯片上的后续单元处理。

镜头的焦距（定焦，变焦），光圈，数量（多目摄像机使用多镜头），有效像素等会影响输送给sensor的信号，从而影响最终的成像效果。

关于镜头的相关概念和其在安防行业的具体应用可以参见：安防摄像机里的镜头，鱼眼镜头，景深，从像素密度考虑摄像机选型等章节。

光线到达sensor以后，由其先进行对光信号转化成电信号的初步处理。sensor的主要性能参数有靶面尺寸，有效像素，低照性能等。这些也会影响最终的成像效果。关于sensor的参数性能等可以参阅安防图像传感器sensor，Starvis星光全彩摄像机技术，摄像机的宽动态功能等章节。

图像处理，视频编码

经过sensor转化的电信号需要交给摄像机芯片上的处理器进行图像处理，视频编码等操作。

处理器是个很笼统的称呼，类似于电脑或者手机的CPU。对于输出模拟或数字信号的摄像机来说，此处的处理器主要是指ISP，亦即Image Signal
Processor，图像信号处理器。
ISP的主要工作流程

ISP的主要工作包括：

DEMOSAIC，翻译成中文即是反马赛克。sensor输出的每个像素信号只包含R,G,B三者中的一种颜色数据。这种数据就是bayer（贝尔）数据，即通常所说的RAW数据。显而易见，RAW数据所反映的颜色信息不是真实的颜色信息。
DEMOSAIC的工作就是通过插值算法将将每个像素所代表的真实颜色计算出来，即将贝尔图像转换为真实色彩图像。
3A控制。即自动对焦(AF)、自动曝光(AE)和自动白平衡(AWB)的统称。这是ISP比较的核心部分，处理的好坏直接关系到最后输出的图像效果。
ISP 可以通过CONTRAST AF、PDAF、LASER AF等各种自动聚焦算法实现自动对焦，使得目标在传感器上清晰的成像。
曝光主要影响图像的明暗程度。ISP可以通过控制曝光程度，使得图像亮度适宜。
白平衡与色温相关，用于衡量图像的色彩真实性和准确性。自动白平衡功能，力求在各种复杂场景下都能精确的还原目标本来的颜色。
伽玛校正。传感器对光线的响应和人眼对光线的响应是不同的。伽玛校正就是使得图像看起来符合人眼的特性。
图像剪裁。即改变图像的尺寸，可用于输出不同分辨率的图像。比如原本2048*1536，4:3的分辨率裁剪成2304×1296，16:9的分辨率以更符合宽屏的视觉效果。或者5MP的sensor，同时还可以支持输出4MP,3MP,1080P等不同的分辨率。
智能算法。用于识别特定的目标，例如人脸识别，人形识别，车牌识别等。ISP通过各种智能算法，准确的识别特定的目标。当然在网络摄像机里，智能算法还可以内置到编码芯片里。同时还可以把智能算法，结构化数据功能前置到sensor里，比如现在Sony有款AI sensor（SONY IMX500/501）已经实现了直接输出结构化数据。
动态范围。动态范围即图像的明暗区间。ISP处理使得目标成像的暗处不至于欠曝，而亮处的景物不至于过曝。除了ISP支持动态范围处理外，图像传感器也需要支持动态范围（HDR）功能，详细的可以参见摄像机的宽动态功能一节。
图像稳定，防抖。主要功能是使得图像不要因为摄像机的轻微抖动而模糊不清。

除了以上这些工作和流程外，ISP的功能还有降噪，对比度，饱和度，锐度等。因为不同厂家，不同方案商的技术积累，算法差异等原因，即使是完全相同硬件方案的摄像机的图像效果也会有差异。

模拟的光信号，经sensor转化成数字信号，ISP处理以后，可以直接输出数字信号的图像，比如SDI摄像机。也可以再次经过数模转换，将数字信号转换成模拟信号输出，比如传统cvbs信号的模拟标清摄像机，AHD/CVI/TVI/XVI等高清模拟摄像机。

另一方面，数字信号还可以经过编码，通过网络进行输出传输，亦即网络摄像机。此时的编码需要有专门的编码芯片来完成。需要注意的是现在的编码芯片大都已经集成了ISP的功能。

对于拥有视频编码功能的处理器我们一般称呼CPU，DSP或者SOC，严格来说这三者之间是有区别的。但对于安防摄像机的处理芯片来说，叫CPU，DSP或者SOC都未尝不可。为了统一及遵循厂商的惯用命名，我们将支持视频编码功能的处理器统一叫SOC。

SOC，即system on chip，可以看成是处理器，ISP，编码芯片三合一。以下是一个典型的安防视频编码芯片的框图：

典型的安防摄像机SOC框图

从中我们可以看见其主要结构分为Quad Core
Arm® Cortex®-A53（即处理器），Image Signal
Processor (ISP)，Video Codec。前端可以接入sensor，音频，报警等设备。为了支持系统运行，有运行内存和内部存储。对外可以直接WiFi/4G，SD卡存储等扩展，同时可以输出模拟/数字等视频，音频，报警，网络，串口（485，232）等信号。

SOC的核心功能是视频编码，比如上面提供的这个典型的SOC芯片，其支持H.264、H.265、MJPEG这三种视频编码方式。视频编码的相关概念一节中有关于视频编码的详细介绍，这里不赘述。

现阶段，随着芯片技术，AI智能算法的发展，更多的SOC厂商将智能功能内置到了SOC芯片里，比内置到ISP里的智能功能更多，更强大，可扩展性更强。

关于SOC,DSP即其智能功能可以参见这些章节：安防产品里的处理器--DSP,ISP,SOC。

信号输出

经过ISP或者SOC处理的视频信号，音频或者其他信号，可以根据需要输出为模拟，数字和网络三种信号。

模拟信号
视频图像的电信号经过ISP处理以后，再经过D/A转换成模拟信号，通过BNC接头输出。常见的模拟视频信号包括标清的CVBS，高清的AHD/TVI/CVI/XVI等。理论上高清的AHD/TVI/CVI/XVI信号在传输视频信号的同时，还可以进行音频，报警，控制信号等的传输。
数字信号
视频图像的电信号经过ISP处理以后，不再经过D/A转换直接输出数字信号，常见的输出接口可以是BNC头或者HDMI接口。这类的摄像机主要是SDI摄像机。HDMI接口在传输数字视频信号的同时还可以进行音频传输。
网络信号
数字信号经过编码芯片进行编码，然后能通过网络传输。这类网络信号需要经过相应的解码才能显示视频图像。常见的解码设备和方法包括对应的电脑客户端，NVR，视频解码器，网络矩阵等。
另一方面，音频，报警，RS485等信号也可以和视频信号一起经过编码然后进行网络传输。

安防摄像机的内部结构

图像采集

图像处理，视频编码

信号输出

评论