一. 眼睛
光纤进入眼睛之后,经过cornea和lens,到达retina。我们的retina上有两种sensor,rods和cones。rods分布在retina的绝大多数地方,擅长在昏暗的环境中看东西;而cones用来看明亮的光线,但是cones分布集中在fovea上,所以我们通常看东西需要变换视点,集中看一个物体。另外,retina上有一个点是什么sensor都没有的,称为blind spot,我们没法看到正好进入这个点的光线。
眼睛会给我们带来许多错觉,例如:
我们可以看清昏暗环境,也可以看清很亮的环境,但是我们没法同时看清。
昏暗环境下我们要分辨两个物体,需要它们在亮度上有更大的差别;相对的,在明亮的地方,微小的差别都能被我们识别。
浅色和深色相交的地方,浅色看起来更浅,深色看起来更深。
周边的线条会让我们对形状、长度、位置等几何特征产生错觉。
二. 图像表达
摄像机捕捉到连续信号,然后将其转化为离散的信号。这一过程在两个方面影响着图片。
sample: 将图片分成若干像素,即常说的分辨率;分辨率越高/像素越多,图像看起来更像连续的。
quantity: 对颜色进行量化,越细分图像失真越小。
RGB图:常常有三张图,分别表示R,G,B三个channel,来表示一帧画面。举例来说,一秒钟30帧,则需要30*3*512*512*8 bit,即大约188mb。廉价的处理方法是在一张图上每个像素只取一种颜色,而邻近像素分别取不同像素。
如果采取较少的颜色,可以使图像所占空间变小,但是使图像的颜色变化不再圆滑。常用方法是n*ceil(x/n),其中n为压缩倍数,通常为2的m次方。
简单来说,图像是一个二维矩阵,每个元素是一个RGB;或者三个二维矩阵,分别表达RGB。
三. 图像基本操作
邻居:有4邻居和8邻居(包含角)两种定义。不同定义方法有不同的操作方法。
相加:直接将两张图的矩阵相加。举例:增强(去噪)。
相减:直接将两张图的矩阵相减。
union:集合取union
取反:略
用自己+所有相邻像素的平均值取代自己:模糊、去噪
傅里叶变换: