投影
透视投影(perspective projection)
透视投影属于中心投影。透视投影图简称为透视图或透视,它是从某个投射中心将物体投射到单一投影面上所得到的图形。透视图与人们观看物体时所产生的视觉效果非常接近,所以它能更加生动形象地表现建筑外貌及内部装饰。在已有实景实物的情况下,通过拍照或摄像即能得到透视图;对于尚在设计、规划中的建筑物则作图(手工或计算机)的方法才能画出透视图。透视图以渲染、配景,使之成为形象逼真的效果图。由于是中心投影,因此平行投影中的一些重要性质(如平行性、定比性等)和作图规律,在这里已不适用。
透视投影是用中心投影法将形体投射到投影面上,从而获得的一种较为接近视觉效果的单面投影图。它具有消失感、距离感、相同大小的形体呈现出有规律的变化等一系列的透视特性,能逼真地反映形体的空间形象。
透视投影符合人们心理习惯,即离视点近的物体大,离视点远的物体小,远到极点即为消失,成为灭点。它的视景体类似于一个顶部和底部都被切除掉的棱椎,也就是棱台。这个投影通常用于动画、视觉仿真以及其它许多具有真实性反映的方面。
正交投影(orthographic projection)
投影线垂直于投影面的投影属于正交投影 ,也称为平行投影。
相机模型
- 移动相机到拍摄位置,镜头对准某个方向(视图变换,view transform)
- 将拍摄对象一到场景中的某个位置(模型变换,model transform)
- 设置相机焦距或调整缩放比例(投影变换,projection transform)
- 对结果图像拉伸或者压缩,变换为需要的图片大小(视口变换,viewpoint transform)
齐次坐标与仿射变换
我们将一个3维坐标表示为列向量,那么一个3*3
的矩阵乘以这个列向量就可以得到一个新的列向量。如下,三维笛卡尔坐标与矩阵的乘法只能实现三维坐标的缩放和旋转,而无法实现坐标平移。
所以我们将三维的笛卡尔坐标添加一个额外坐标,实现坐标平移,而且保持了三维向量与矩阵乘法具有的缩放和旋转操作。这个就称为齐次坐标,而这种变换也称为仿射变换(affine transformation),不属于线性变换。
相机矩阵
几何相机校正(Geometric camera calibration)
也称为相机反切(camera resectioning),主要用于估计图像或者视频摄像机的透镜和图像传感器的相关参数。使用这些参数可以纠正透镜畸变,度量真实世界中物体的大小,或者相机在一个场景中的定位。因而可以被用于机器视觉,去检测或者度量事物,也可用于机器人中,帮助导航系统和3D重建。
相机参数与相机矩阵分解
- 主要包含内参(intrinsics)、外参(extrinsics)、畸变系数(distortion coefficients)
- 估计参数需要3D世界坐标及其对应的2D图像点
- 评估所估计相机参数的方法就是:首先画出相机和校准模式的相对位置;随后计算投影误差;最后计算参数的估算误差
相机矩阵分解为两个矩阵的乘积:内参矩阵K
和外参矩阵[R|−RC]
其中,
3∗3
的上三角阵K
描述了相机的内参比如焦距。3∗3
的旋转矩阵R
的列表示相机参考帧的世界坐标轴方向。向量C
是世界坐标系中的相机中心。那么向量t=−RC
就给出了相机坐标系中的世界原点位置。我们需要做的就是求解这些参数,当然前提是我们已经知道P
。
内参矩阵
内参矩阵是将3D相机坐标变换到2D齐次图像坐标。透视投影的一个理想模型就是针孔相机,有缩放的效果成像为倒影。市面上的相机都是透视投影。如下:
内参矩阵如下:
内参矩阵的每一个参数都有意义:
-
焦距的参数:
fx,fy
焦距就是真空与图像平面(投影屏幕)的距离,类似于人眼和视网膜,焦距的度量是针对像素的。针孔相机的fx,fy
有相同的值。上图中红线部分就是焦距。但是在实际中,fx
和fy
一般不同,有一下几个原因:- 数码相机传感器的缺陷
- 后处理中图像被非均匀缩放
- 相机透镜导致的无意的失真
- 相机使用了失真的格式,透镜将宽屏场景压缩到标准大小的传感器中
- 相机校准的误差
主点偏移
x0,y0
相机的主轴是与图像平面垂直且穿过真空的线,它与图像平面的焦点称为主点。
主点偏移就是主点位置相对于图像平面(投影面)的位置。上图中,增加x0
的值相当于把针孔向右移动,等价将投影面向左移动同时保持针孔位置不变。轴倾斜
轴倾斜会导致投影图像的形变。-
焦距-从像素到世界单元
内参矩阵只关心相机坐标和图像坐标之间的关系,与相机的绝对尺寸无关。针对焦距和主点偏移使用响度单元可以表示相机的相对尺寸,换句话说就是投影面的位置与其尺寸(以像素为单位)相关。
另一种说法是内参相机变换与相机的几何均匀缩放无关,利用像素单元表示尺寸,可以捕捉到这种不变性。
可以使用相似三角形将像素单元转换到世界单元中,前提是你知道世界单元中至少一个相机尺寸。比如你知道相机的投影面(数字传感器)宽度为WW毫米,图片宽度(像素为单位)为w,那就可以将焦距fx转换为世界单元:
其它的参数fy,x0,y0
也可以被转换为对应的世界单元Fx,X0,Y0
:
- 2D变换中的相机内参的计算
将内参矩阵分解为切变(shear
,类似于将长方形压成平行四边形的变形方式)、缩放,平移变换,分别对应轴倾斜、焦距、主点偏移 :
第二个等式右边三个矩阵依次是:2D平移、2D缩放、2D切变
另一种等价的分解是将切变放在缩放前面 :
有一点需要注意:内参不影响可见性 —— 阻隔对象(occluded objects)在图像空间中无法通过简单的2D变换显示出来。这里的occluded objects
就是那些你希望看到,但是由于某些原因看不到的对象,比如目标跟踪的时候,一个目标被另一个目标遮挡了。
外参矩阵
相机的外参矩阵描述的是世界坐标中相机的位置,及其指向方向。有两个成分:旋转矩阵R
和平移向量t
。它们并非恰好对应相机的旋转和平移。
外参矩阵以刚体变换矩阵的形式可以记为:左边一个3∗3
旋转矩阵,右边一个3∗1
的平移列向量 :
常见的做法是在底部增加一行(0,0,0,1)
,这使得矩阵为方形的,允许我们进一步将矩阵分解为旋转和平移矩阵:
这个矩阵描述的就是如何将世界坐标系中的点变换到相机坐标系中,向量t
描述的是世界坐标系原点在相机坐标系中的位置,R
的列代表的是相机坐标系中世界坐标系轴的方向。
从上可以发现,外参主要作用就是描述世界坐标系到相机坐标系的转换。与我们经常想的相机坐标系到世界坐标系的转换刚好相反。
求解外参矩阵
实际中,直接指定相机的姿态比指定世界坐标系中的点如何转换到相机坐标系中更加自然,通过建立一个刚体变换矩阵描述相机姿态,然后对其取逆即可建立相机的外参矩阵。
因而可以这样做:定义一个描述相机中心在世界坐标系中的位置的向量C
,然后让Rc
代表相机在世界坐标系旋转到当前姿态需要的旋转矩阵。那么描述相机姿态的变换矩阵就是(Rc|C)
。同样在底部添加一个行向量(0,0,0,1)
,那么外参矩阵就是相机姿态矩阵的逆。
倒数第三个等式变换到倒数第二个等式,使用的转置是因为Rc
是正交阵,此外,平移矩阵的逆就是他的负数平移向量,进而可以得到外参矩阵参数和相机姿态是直接相关: