图像数码基础-图像数码基础-北京北方合力科技有限公司

北京北方合力科技有限公司 >> 行业资讯

图像数码基础

发布时间：[2007-12-17]

一、光和颜色
1 光和颜色
可见光是波长在 380 nm ～ 780 nm 之间的电磁波，我们看到的大多数光不是一种波长的光，而是由许多不同波长的光组合成的。如果光源由单波长组成，就称为单色光源。该光源具有能量，也称强度。实际中，只有极少数光源是单色的，大多数光源是由不同波长组成，每个波长的光具有自身的强度。这称为光源的光谱分析。
颜色是视觉系统对可见光的感知结果。研究表明，人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞。红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同，对不同亮度的感知程度也不同。
自然界中的任何一种颜色都可以由 r ， g ， b 这 3 种颜色值之和来确定，以这三种颜色为基色构成一个 rgb 颜色空间，基色的波长分别为 700 nm( 红色 ) 、 546.1 nm( 绿色 ) 和 435.8 nm( 蓝色 ) 。
颜色＝ r( 红色的百分比 ) ＋ g( 绿色的百分比 ) ＋ b( 蓝色的百分比 )
可以选择不同的三基色构造不同的颜色空间，只要其中一种不是由其它两种颜色生成。例如 y （ yellow, 黄色）， c （ cyan ，青色）， m （ magenta ，品红）。
2 颜色的度量
图像的数字化首选要考虑到如何用数字来描述颜色。国际照明委员会 cie （ international commission on illumination ）对颜色的描述作了一个通用的定义，用颜色的三个特性来区分颜色。这些特性是色调，饱和度和明度，它们是颜色所固有的并且是截然不同的特性。
色调 (hue) 又称为色相，指颜色的外观，用于区别颜色的名称或颜色的种类。色调用红、橙、黄、绿、青、蓝、靛、紫等术语来刻画。用于描述感知色调的一个术语是色彩 (colorfulness) 。
饱和度 (saturation) 是相对于明度的一个区域的色彩，是指颜色的纯洁性，它可用来区别颜色明暗的程度。完全饱和的颜色是指没有渗入白光所呈现的颜色，例如仅由单一波长组成的光谱色就是完全饱和的颜色。
明度 (brightness) 是视觉系统对可见物体辐射或者发光多少的感知属性。它和人的感知有关。由于明度很难度量，因此国际照明委员会定义了一个比较容易度量的物理量，称为亮度 (luminance) 来度量明度，亮度 (luminance) 即辐射的能量。明度的一个极端是黑色 ( 没有光 ) ，另一个极端是白色，在这两个极端之间是灰色。
光亮度 (lightness) 是人的视觉系统对亮度 (luminance) 的感知响应值，光亮度可用作颜色空间的一个维，而明度 (brightness) 则仅限用于发光体 , 该术语用来描述反射表面或者透射表面。
3 颜色空间
颜色空间是表示颜色的一种数学方法，人们用它来指定和产生颜色，使颜色形象化。颜色空间中的颜色通常使用代表三个参数的三维坐标来指定，这些参数描述的是颜色在颜色空间中的位置，但并没有告诉我们是什么颜色，其颜色要取决于我们使用的坐标。
使用色调、饱和度和明度构造的一种颜色空间，叫做 hsb(hue, saturation and brightness) 颜色空间。 rgb(red ， green and blue) 和 cmy(cyan, magenta and yellow) 是最流行的颜色空间，它们都是与设备相关的颜色空间，前者用在显示器上，后者用在打印设备上。
rgb(red ， green and blue) 和 cmy(cyan, magenta and yellow) 是最流行的颜色空间，前者用在显示器上，后者用在打印设备上。
从技术上角度区分，颜色空间可考虑分成如下三类：
? rgb 型颜色空间 / 计算机图形颜色空间：这类模型主要用于电视机和计算机的颜色显示系统。例如， rgb ， hsi, hsl 和 hsv 等颜色空间。
? xyz 型颜色空间 /cie 颜色空间：这类颜色空间是由国际照明委员会定义的颜色空间，通常作为国际性的颜色空间标准，用作颜色的基本度量方法。例如， cie 1931 xyz ， l*a*b ， l*u*v 和 lch 等颜色空间就可作为过渡性的转换空间。
? yuv 型颜色空间 / 电视系统颜色空间：由广播电视需求的推动而开发的颜色空间，主要目的是通过压缩色度信息以有效地播送彩色电视图像。例如， yuv ， yiq ， itu-r bt.601 y"cbcr, itu-r bt.709 y"cbcr 和 smpte -240m y"pbpr 等颜色空间。
4 颜色空间的转换
不同颜色可以通过一定的数学关系相互转换：
? 有些颜色空间之间可以直接变换。例如， rgb 和 hsl ， rgb 和 hsb ， rgb 和 r"g"b", r"g"b" 和 y"crcb ， cie xyz 和 cie l*a*b* 等。
? 有些颜色空间之间不能直接变换。例如， rgb 和 cie la*b*, cie xyz 和 hsl ， hsl 和 y"cbcr 等，它们之间的变换需要借助其他颜色空间进行过渡。
r"g"b" 和 y"cbcr 两个彩色空间之间的转换关系用下式表示：
y = 0.299r + 0.587g + 0.114b
cr = (0.500r - 0.4187g - 0.0813b) + 128
cb = (-0.1687r - 0.3313g + 0.500b) + 128
二、彩色电视的制式及其颜色空间
1 、彩色电视制式
目前世界上现行的彩色电视制式有三种： ntsc 制、 pal 制和 secam 制。这里不包括高清晰度彩色电视 hdtv (high-definition television) 。
ntsc(national television systems committee) 彩色电视制是 1952 年美国国家电视标准委员会定义的彩色电视广播标准，称为正交平衡调幅制。美国、加拿大等大部分西半球国家，以及日本、韩国、菲律宾等国和中国的台湾采用这种制式。
ntsc 彩色电视制的主要特性是：
(1) 525 行 / 帧 , 30 帧 / 秒 (29.97 fps, 33.37 ms/frame)
(2) 高宽比：电视画面的长宽比 ( 电视为 4:3 ；电影为 3:2 ；高清晰度电视为 16:9)
(3) 隔行扫描，一帧分成 2 场 (field) ， 262.5 线 / 场
(4) 在每场的开始部分保留 20 扫描线作为控制信息，因此只有 485 条线的可视数据。 laser disc 约 ~420 线， s-vhs 约 ~320 线
(5) 每行 63.5 微秒，水平回扫时间 10 微秒 ( 包含 5 微秒的水平同步脉冲 ) ，所以显示时间是 53.5 微秒。
(6) 颜色模型： yiq
　　一帧图像的总行数为 525 行，分两场扫描。行扫描频率为 15 750 hz ，周期为 63.5μs ；场扫描频率是 60 hz ，周期为 16.67 ms ；帧频是 30 hz ，周期 33.33 ms 。每一场的扫描行数为 525/2=262.5 行。除了两场的场回扫外，实际传送图像的行数为 480 行。
由于 ntsc 制存在相位敏感造成彩色失真的缺点，因此德国 ( 当时的西德 ) 于 1962 年制定了 pal(phase-alternative line) 制彩色电视广播标准，称为逐行倒相正交平衡调幅制。德国、英国等一些西欧国家，以及中国、朝鲜等国家采用这种制式。
pal 电视制的主要扫描特性是：
(1) 625 行 ( 扫描线 )/ 帧， 25 帧 / 秒 (40 ms/ 帧 )
(2) 长宽比 (aspect ratio) ： 4:3
(3) 隔行扫描， 2 场 / 帧， 312.5 行 / 场
(4) 颜色模型： yuv
法国制定了 secam ( 法文： sequential coleur avec memoire) 彩色电视广播标准，称为顺序传送彩色与存储制。法国、苏联及东欧国家采用这种制式。世界上约有 65 个地区和国家试验这种制式。
这种制式与 pal 制类似，其差别是 secam 中的色度信号是频率调制 (fm) ，而且它的两个色差信号：红色差 (r"-y") 和蓝色差 (b"-y") 信号是按行的顺序传输的。法国、俄罗斯、东欧和中东等约有 65 个地区和国家使用这种制式，图像格式为 4:3 ， 625 线， 50 hz ， 6 mhz 电视信号带宽，总带宽 8 mhz 。
2 、彩色电视的颜色空间
在彩色电视中，用 y 、 c1, c2 彩色表示法分别表示亮度信号和两个色差信号， c1 ， c2 的含义与具体的应用有关。在 ntsc 彩色电视制中， c1 ， c2 分别表示 i 、 q 两个色差信号；在 pal 彩色电视制中， c1 ， c2 分别表示 u 、 v 两个色差信号；在 ccir 601 数字电视标准中， c1 ， c2 分别表示 cr ， cb 两个色差信号。所谓色差是指基色信号中的三个分量信号 ( 即 r 、 g 、 b) 与亮度信号之差。
ntsc 的 yiq 颜色空间与 rgb 颜色空间的转换关系如下：
y=0.30r+ 0.59g +0.11b
i=0.74(r － y) － 0.27(b － y) = 0.60r+ 0.28g +0.32b
q=0.48(r － y) － 0.27(b － y) = 0.21r+ 0.52g +0.31b
pal 的 yuv 颜色空间与 rgb 颜色空间的转换关系如下：
y=0.30r+ 0.59g +0.11b
u=0.493(b － y) = － 0.15r － 0.29g +0.44b
q=0.877(r － y) = 0.62r － 0.52g － 0.10b
三、视频图像采样
模拟视频的数字化包括不少技术问题，如电视信号具有不同的制式而且采用复合的 yuv 信号方式，而计算机工作在 rgb 空间；电视机是隔行扫描，计算机显示器大多逐行扫描；电视图像的分辨率与显示器的分辨率也不尽相同等等。因此，模拟视频的数字化主要包括色彩空间的转换、光栅扫描的转换以及分辨率的统一。
模拟视频一般采用分量数字化方式，先把复合视频信号中的亮度和色度分离，得到 yuv 或 yiq 分量，然后用三个模／数转换器对三个分量分别采样并进行数字化，最后再转换成 rgb 空间。
1 、图像子采样
对彩色电视图像进行采样时，可以采用两种采样方法。一种是使用相同的采样频率对图像的亮度信号（ y ）和色差信号（ cr ， cb ）进行采样，另一种是对亮度信号和色差信号分别采用不同的采样频率进行采样。如果对色差信号使用的采样频率比对亮度信号使用的采样频率低，这种采样就称为图像子采样 (subsampling) 。由于人的视觉对亮度信号的敏感度高于对色差的敏感度，这样做利用人的视觉特性来节省信号的带宽和功率，通过选择合适的颜色模型，可以使两个色差信号所占的带宽明显低于 y 的带宽，而又不明显影响重显彩色图像的观看。
目前使用的子采样格式有如下几种：
(1) 4:4:4 这种采样格式不是子采样格式，它是指在每条扫描线上每 4 个连续的采样点取 4 个亮度 y 样本、 4 个红色差 cr 样本和 4 个蓝色差 cb 样本，这就相当于每个像素用 3 个样本表示。
(2) 4:2:2 这种子采样格式是指在每条扫描线上每 4 个连续的采样点取 4 个亮度 y 样本、 2 个红色差 cr 样本和 2 个蓝色差 cb 样本，平均每个像素用 2 个样本表示。
(3) 4:1:1 这种子采样格式是指在每条扫描线上每 4 个连续的采样点取4个亮度y样本、1 个红色差 cr 样本和 1 个蓝色差 cb 样本，平均每个像素用 1.5 个样本表示。
(4) 4:2:0 这种子采样格式是指在水平和垂直方向上每 2 个连续的采样点上取 2 个亮度 y 样本、 1 个红色差 cr 样本和 1 个蓝色差 cb 样本，平均每个像素用 1.5 个样本表示。
2 、 cif 、 qcif 和 sqcif 格式
为了既可用 625 行的电视图像又可用 525 行的电视图像， ccitt 规定了称为公用中分辨率格式 cif(common intermediate format) ， 1/4 公用中分辨率格式 (quarter-cif ， qcif) 和 (sub-quarter common intermediate format ， sqcif) 格式对电视图像进行采样。
cif 格式具有如下特性：
(1)电视图像的空间分辨率为家用录像系统 (video home system ， vhs) 的分辨率，即 352×288 。
(2)使用非隔行扫描 (non-interlaced scan) 。
(3)使用 ntsc 帧速率，电视图像的最大帧速率为 30 000/1001≈29.97 幅 / 秒。
(4)使用 1/2 的 pal 水平分辨率，即 288 线。
(5)对亮度和两个色差信号 (y 、cb和cr) 分量分别进行编码，它们的取值范围同 itu-r bt.601 。即黑色 =16 ，白色 =235 ，色差的最大值等于 240 ，最小值等于 16 。
下面为 5 种 cif 图像格式的参数说明。参数次序为 “ 图象格式亮度取样的象素个数 (dx) 亮度取样的行数 (dy) 色度取样的象素个数 (dx/2) 色度取样的行数 (dy/2)” 。
sub-qcif 128 96 64 48
qcif 176 144 88 72
cif 352 288 176 144
4cif 704 576 352 288
16cif 1408 1152 704 576
h.263 数字视频压缩
一、视频压缩编码的基本概念
视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。
在视频压缩中常需用到以下的一些基本概念：
1 有损和无损压缩：在视频压缩中有损（ lossy ）和无损（ lossless ）的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息，而且丢失的信息不可恢复。丢失的数据率与压缩比有关，压缩比越小，丢失的数据越多，解压缩后的效果一般越差。此外，某些有损压缩算法采用多次重复压缩的方式，这样还会引起额外的数据丢失。
2 帧内和帧间压缩：帧内（ intraframe ）压缩也称为空间压缩（ spatial compression ）。当压缩一帧图像时，仅考虑本帧的数据而不考虑相邻帧之间的冗余信息，这实际上与静态图像压缩类似。帧内压缩一般达不到很高的压缩。
采用帧间（ interframe ）压缩是基于许多视频或动画的连续前后两帧具有很大的相关性，或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息，根据这一特性，压缩相邻帧之间的冗余量就可以进一步提高压缩量，减小压缩比。帧间压缩也称为时间压缩（ temporal compression ），它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。
3 对称和不对称编码：对称性（ symmetric ）是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间，对称算法适合于实时压缩和传送视频，如视频会议应用就以采用对称的压缩编码算法为好。不对称或非对称意味着压缩时需要花费大量的处理能力和时间，而解压缩时则能较好地实时回放，也即以不同的速度进行压缩和解压缩。一般地说，压缩一段视频的时间比回放（解压缩）该视频的时间要多得多。
二、 h.263 压缩编码格式
1 h.263 压缩编码格式
h.263 视频编码标准是专为中高质量运动图像压缩所设计的低码率图像压缩标准。 h.263 采用运动视频编码中常见的编码方法，将编码过程分为帧内编码和帧间编码两个部分。 i 帧内用改进的 dct 变换并量化，在帧间采用 1/2 象素运动矢量预测补偿技术，使运动补偿更加精确，量化后适用改进的变长编码表（ vlc ）地量化数据进行熵编码，得到最终的编码系数。
2 h.263 帧类型
a 内码帧（ i 帧）不能由任何其它帧构造出来，包含所有可显示它的信息。
i 帧编码过程：
每个光亮度和色差平面被分成 8 ＊ 8 的块
各块使用 dct 转换成频率域
利用量化表进行量化。
对各块中最重要系数序列（ dc 系数）用 dpcm 技术进行编码，且仅编码两个相邻 dc 值的差
各块中的系数是按锯齿形次序进行行程编码
最后进行类哈夫曼编码
预测帧（ p 帧）：由前面的帧构造所得。
p 帧编码：
p 帧编码过程：
在基准帧中对每个宏块均查找其最佳匹配宏块
计算实际宏块和最佳匹配宏块的差，作为运动向量
误差项用 dct 进行转换
接着进行量化步，形成 “ 锯齿形次序 ” 行程编码，最后进行类哈夫曼平均信息量编码。注意量化表与 i 帧所用的不同， dc 系数的编码与其他系数的编码方式相同
3 h.263 特点
与 h.261 的 p×64k 的传输码率相比， h.263 的码率更低，单位码率可以小于 64k ，且支持的原始图像格式更多，包括了在视频和电视信号中常见的 qcif ， cif ， edtv ， itu － r 601 ， itu － r 709 等等。
h.263 的编码速度快，其设计编码延时不超过 150ms ；码率低，在 512 k 乃至 384k 带宽下仍可得到相当满意的图像效果，十分适用于需要双向编解码并传输的场合（如 : 可视电话）和网络条件不是很好的场合（如 : 远程监控）。
h ． 263 图象被编码为一个亮度信号和两个色差成分（ y ， cb 和 cr ）。
4 h.263 的数据结构
h.263 采用句法和语义学的方法对多路视频来管理的。
句法被划分为四层，四个层分别是图象、块组、宏块、块。图象层每帧图象的数据包含一个图象头，并紧跟着块组数据，最后是一个 end-of-sequence 码和填塞位。其中包括有图象开始码 (psc) (22 bits) 、时域参照 (tr)(8 bits) 、类型信息 (ptype) (13 bits) 和量化器信息 (pquant) (5 bits) 等十三个选项。
每个块组层 (gob) 包含了一个块组层头，紧跟着宏块数据。每个 gob 包含了一行或多行宏块。对于每帧图象的第一个 gob （ 0 号），不需要传送 gob 头。而对于其它的 gob ， gob 头可以为空，这决定于编码策略。译码器可以通过外部手段发送信号给远程变码器要求只传送非空 gob 头，例如建议 h.245 。
每个宏块中包含了一个宏块头和后续的块数据。 cod 只出现在用 ptype 指定为 "inter" 的图象帧中，对于这些图象中的宏块，当 cod 指定或 ptype 指示为 "intra" 时会出现宏块类型 & 色度的编码块样式（ mcpbc ）。如果 ptype 指示了 "pb 帧 " ，对于 b 块的宏块 (modb) 会出现。只有在 modb 中指定时才会出现 cbpb （指示将传送宏块的 b 系数）和 b 宏块的运动矢量数据 (mvdb) ( 变长 ) 。当 mcpbc 和 cbpy 中指定时会出现 " 块数据 " 。
块层如果不在 pb 帧模式，一个宏块包含四个亮度块和两个色差块。在 pb 帧模式下，一个宏块包含 12 个块。在缺省 h.263 模式下，首先传送 6 个 p 块数据，然后是 6 个 b 块数据。