这个系列是观看B站系列视频《数字图像处理与分析》的记录，用来巩固及日后查看，B站链接为https://www.bilibili.com/video/BV1Xb411U79J。

一、基本概念

图像的表示

　　像素坐标系：对图像分布进行二维空间采样的结果。

　　像素值：对单个像素灰度值进行数字化采样的结果。有4bits/pixel,6bits/pixel,8bits/pixel,12bits/pixel,16bits/pixel等，平常我们遇到的照片像素值取值基本上都是[0,255]，这就是8bits/pixel，因为8位二进制数能够表示的最大十进制数就是255。采样所用的比特数越多，图像的细节就越丰富。

　　图像尺寸：一幅数字图像矩阵的大小。

　　矩阵表示：1）图像是像素的二维排列；2）一般采用均匀采样（像素行、列之间的间隔相等；二维排列形成一个矩阵）；3）特殊情况下，亦可采用非均匀采样。

　　数学表示：1）二维离散函数——I=f(x,y)。x，y表示图像像素的坐标；函数值f表示在坐标(x,y)处像素的亮度值。2）二维矩阵——A[m,n]。m，n表示图像的宽和高；矩阵元素a(i,j)表示图像在第i行，第j列的像素值。

图像的质量

　　灰度：表示图像像素明暗程度的数值。

　　灰度级：表明图像中不同灰度的最大数量，如8bits/pixel采样的图片的灰度级就是256（是不同灰度的数量，而不是灰度的最大值，故是256而不是255）。

　　对比度：反映一幅图像中灰度方差的大小。对比度=最大灰度值/最小灰度值。

　　图像的评价：分为主观评价和客观评价，主观评价就是人直接来评价，这里不予展开；传统的客观评价是通过计算恢复图像偏离原始图像的误差来衡量恢复图像的质量，最常用的有均方误差（MSE）和峰值信噪比（PSNR）。

均方误差（MSE）: $MSE=\frac{1}{NM}\sum_{i=1}^N\sum_{j=1}^M(f_{ij}-f_{ij}’)^2$

峰值信噪比（PSNR）: $PSNR=10log_{10}\frac{L^2}{MSE}$

其中，N、M分别是x方向、y方向图像像素点的个数， $f_{ij}$ 和 $f_{ij}’$ 分别是原始图像和测试图像在(i,j)点上的取值，L是图像中灰度取值的范围，对8比特的灰度图像而言，L=255。

对图像评价还有一系列新的方法，即基于视觉特性的影像质量评价方法，其中有一种是基于视觉兴趣的测量方法。人们在观察和理解图像时往往会不自觉地对其中某些区域产生兴趣，这些区域称之为“感兴趣区（ROI）”，整幅图像的视觉质量往往取决于ROI的质量。根据这个视觉特性，人们探索各种ROI评价方式，如通过对图像中不同区域的加权突出人眼对ROI的兴趣程度：

$\\IMSE=\frac{1}{S}[\lambda_1\sum_{(i,j)\in A_1}(f_{ij}-f_{ij}’)^2+\lambda_2\sum_{(i,j)\in A_2}(f_{ij}-f_{ij}’)^2]$

公式中的S视频中没有解释，个人理解应该是MSE公式中的NM之乘积。

人类的视觉模型

图1.1 人眼的构造

图1.2 人眼剖面图

图像的颜色

视觉三基色假说——格拉斯曼定律：所有颜色都可由相互独立的三基色得到；加入三基色的混合比相等，则色调和色饱和度也相等；任意两种颜色混合产生的新颜色与采用三基色分别合成这两种颜色的各自成分混合起来得到的结果相等；混合色的光亮度是原来各分量光亮度的总和。

原则上可采用各种不同的三基色，为标准化起见，1931年国际照明委员会（CIE）作了统一规定，选定波长为700nm、546.1nm和435.8nm的单色光作为红（R ）、绿（G）、蓝（B）三原色，又称为物理三基色。

颜色模型：描述颜色的三维空间坐标系；一个颜色定义为颜色空间的一个点。

常用的颜色模型：1）RGB（红、绿、蓝），主动产生颜色光源（显示器）；2）CMYK（青、品红、黄、黑）（Cyan、Magenta、Yellow、Black），用于印刷、绘画等；3）HSI（色调、色饱和度、亮度）（Hue、Saturation、Intensity），用于调整颜色分量。一幅图像在计算机中用RGB空间显示；用RGB或HSI空间编辑处理；打印输出时要转换成CMY空间；如果要印刷，则要转换成CMYK四幅印刷分色图，用于套印彩色印刷品。

图1.3 RGB模型

HSI模型在图像处理中是最重要的一种模型，具体特点如下：1）从人的视觉系统出发，用色调、色饱和度和亮度来描述色彩；2）它比RGB色彩空间更符合人的视觉特性；3）在图像处理和计算机视觉中大量算法都可在HSI色彩空间中方便地使用；4）H、S、I可以分开处理而且相互独立；5）在HSI色彩空间可以大大简化图像分析和处理的工作量；6）HSI色彩空间和RGB色彩空间只是同一物理量的不同表示法，因此它们之间存在着转换关系。

图1.4 HSI模型中H和I的详细解释

图1.5 HSI模型中的S的详细解释

图1.6 HSI模型的直观表示

图1.7 HSI圆锥各个切面的解释

颜色模型之间的转换：

1）RGB->CMY: $\left[\begin{array}{ccc} C\\Y\\M\end{array} \right ]=\left[\begin{array}{ccc} 1\\1\\1\end{array} \right ]- \left[\begin{array}{ccc} R\\G\\B\end{array} \right ]$

2）RGB->HSI: $\\\theta =cos^{-1}\left\{\frac{\left[(R-G)+(R+B)\right]/2}{\sqrt{(R-G)^2+(R-B)(G-B)}}\right\}$

$\\H=\left\{\begin{array}{rcl}\theta & & {B<G}\\360-\theta & & {B>G}\end{array}\right.$

$\\S=1-\frac{3\cdot min(R,G,B)}{R+G+B}$

$\\I=(R+G+B)/3$

3）HSI->RGB: $\\0\leq{H}\leq{120^o}$

$\\B=I(1-S)$

$\\R=I\cdot \left[1+\frac{S\cdot{cosH}}{cos(60^o-H)}\right]$

$\\G=3I-(R+B)$

图像的描述

传统图像的描述方式与数据结构：

1）矩阵。黑白图像、灰度图像、彩色图像（三通道）。

2）链表。

图1.8 用链表描述图像

3）拓扑结构。

图1.9 用拓扑结构描述图像

4）关系结构。

图1.10 用关系结构描述图像

图像的统计特性：

1）均值（Mean）: $\\\mu =\frac{\sum_{y=0}^{M-1}\sum_{x=0}^{N-1}f(x,y)}{N*M}$

2）方差（Variance）: $\\\sigma^2=\frac{\sum_{y=0}^{M-1}\sum_{x=0}^{N-1}(f(x,y)-\mu)^2}{N*M}$

图像的直方图

图像直方图是用以表示数字图像中亮度分布的直方图，标绘了图像中每个亮度值的像素数。这种直方图中，横坐标的左侧为纯黑、较暗的区域，而右侧为较亮、纯白的区域。因此一张较暗图片的直方图中的数据多集中于左侧和中间部分，而整体明亮、只有少量阴影的图像则相反。CV领域经常借助图像直方图来实现图像的二值化。

根据上面这段话，我们可以对图像直方图下两个定义：1）直方图是图像中像素强度分布的图形表达方式；2）它统计了每一个强度值所具有的像素个数。

直方图是对数据的统计集合，并将统计结果分布于一系列预定义的bins中。这里的数据不仅仅指的是灰度值，可能是任何有效描述图像的特征。假设有一个矩阵包含一张图像的信息（灰度值0-255），既然已知数字的范围包含256个值，那就可以按一定规律将这个范围分割成子区域。如： $\\ [0,255]=[0,15]\cup [16,31]\cup\cdots\cup[240,255]\\range=bin_1\cup bin_2 \cup\cdots \cup bin_{n=15}$

然后再统计每一个bin的像素数目，这样可以得到下图：

图1.11 图像直方图示例

二、图像的数字化

图像的采样

连续的图像信号先要在空间上进行离散化后才能被计算机处理。那么，为了达到对原来连续图像信号较好的近似，需要多大的采样率呢？

图2.1 图像采样的简单示意

一维连续信号的采样。在工程中的许多信号，实际上都是连续信号，或者称为连续时间信号，记为x(t)，t的取值是从 $-\infty$ 连续变化到 $+\infty$ 。但是，用计算机处理这些信号，必须首先对连续信号进行采样，即按一定的时间间隔 $T_s$ 进行取值：

$\\x_d(n)=x(nT_s), n=\cdots,-2,-1,0,1,2,\cdots$

称 $T_s$ 为采样间隔，称 $x_d(n)$ 为离散信号或时间序列。

连续信号x(t)和频谱X(f)的具体关系为：

$\\X(f)=\int_{-\infty}^{\infty}x(t)e^{-j2\pi{ft}} dt$

$\\x(t)=\int_{-\infty}^{\infty}X(f)e^{j2\pi{ft}}df$

这里简单地解释一下频谱：图像的频率是表征图像中灰度变化剧烈程度的指标，是灰度在平面空间上的梯度。对图像而言，图像的边缘部分是突变部分，变化较快，因此反应在频域上是高频分量；图像的噪声大部分情况下是高频部分；图像平缓部分则为低频分量。图像进行二维傅立叶变换得到频谱图，就是图像梯度的分布图，频谱图上的各点与图像上各点并不存在一一对应的关系，即使在不移频的情况下也是没有。傅立叶频谱图上我们看到的明暗不一的亮点，实际上是图像上某一点与领域点差异的强弱，即梯度的大小，也即该点的频率的大小。

一般情况下连续信号不可能由离散信号恢复出来。如果能完全恢复出，频谱和采样间隔必须满足以下条件：

$\\\left\{\begin{array}{} X(f)有截频f_c，即当|f|\geq f_c时，X(f)=0;\\T_s\leq\frac{1}{2f_c}或f_c\leq\frac{1}{2T_s}或2f_c\leq f_s \end{array}\right.$

这个条件被称为一维空间采样的Nyquist条件。如果信号不是有限带宽信号，采样频率或采样间隔不满足Nyquist条件，就会产生混叠现象。

在满足Nyquist条件下，从离散信号 $x(nT_s)$ 可恢复连续信号 $x(t)$ ：

$\\x(t)=\sum_{i=-\infty}^{+\infty}x(nT_s)\sin c(\frac{\pi}{T_s}(t-nT_s))$

图2.2 一维sinc函数图形

二维连续图像信号的采样。设图像f(x,y)是一连续二维信号，其空间频谱 $F(f_x,f_y)$ 在x方向具有截止频率 $f_{xc}$ ，在y方向具有截止频率 $f_{yc}$ 。所谓采样是对f(x,y)乘以空间采样函数：

$\\s(x,y)=\sum_{i=-\infty}^{+\infty}\sum_{j=-\infty}^{+\infty}\delta (x-i\Delta_x,y-j\Delta_y)$

式中 $\Delta_x$ 和 $\Delta_y$ 为x、y两个方向的采样间隔，上式为脉冲函数 $\delta(x,y)$ 沿x、y两个方向的展开。

图2.3 二维采样函数的图形表示

经过采样以后所得的信号为： $\\\begin{aligned}f_s(\Delta_x,\Delta_y)&=f(x,y)\cdot s(x,y)\\&=\sum_{i=-\infty}^{+\infty}\sum_{j=-\infty}^{+\infty}f(i\Delta_x,j\Delta_y)\delta(x-i\Delta_x,y-j\Delta_y)\end{aligned}$

只有在 $i\Delta_x$ 和 $j\Delta_y$ 的采样点上， $f_s$ 才有数值。

为使采样以后的信号 $f_s(\Delta_x,\Delta_y)$ 能完全恢复原来连续信号f(x,y)，采样间隔 $\Delta_x$ 和 $\Delta_y$ 就必须满足 $\Delta_x\leq\frac{1}{2f_{xc}}$ ， $\Delta_y\leq\frac{1}{2f_{yc}}$ ，这是一维空间采样的Nyquist条件在二维空间的重现。

同样也可以把一维重构公式推广到二维情况： $\\f(x,y)=\sum_{n=-\infty}^{+\infty}\sum_{m=-\infty}^{+\infty}f(n\Delta_x,m\Delta_y)\frac{sin\frac{\pi}{\Delta_x}(x-n\Delta_x)}{\frac{\pi}{\Delta_x}(x-n\Delta_x)}\cdot\frac{sin\frac{\pi}{\Delta_y}(y-n\Delta_y)}{\frac{\pi}{\Delta_y}(y-n\Delta_y)}$