【AR实验室】ARToolKit之概述篇 (转)

转自：http://www.cnblogs.com/polobymulberry/p/5857372.html

0x01 - AR技术定义

目前对AR技术的常见理解就是CV(Computer Vision)+CG(Computer Graphic)。CV的方法很多，简单些比如FREAK+ICP(ARToolKit中的NFT)，复杂些就是SLAM(Magic Leap)。CG就没什么好说的，利用CV算法获取到的图形相关信息(比如CG中的模型矩阵、视图矩阵、投影矩阵)进行绘制。从这一点上来说Pokemon GO确实不能算作AR游戏，毕竟人家只是基于LBS的。

知乎上有一个话题 -我想给大家说下AR的昨天今天明天可以吗？欢迎一起讨论关于未来的AR形态？里面提到了AR两种被广泛接受的定义：

1. 一种是Paul Milgram和Fumio Kishino于1994年定义的“现实-虚拟连续体”。他们描述了从真实环境到虚拟环境的连续体。如图1-2所示，真实场景和虚拟场景分布在两端，在这两者之间接近真实环境的是增强现实，接近虚拟场景的是增强虚拟（扩增虚境），而位于中间的部分叫做混合实境。

2. 另外一种定义是1997年北卡大学的Ronald Azuma提出的增强现实的定义。他认为增强现实技术应具有三个具体特征：三维注册、虚实融合以及实时交互。

作者：AR学院归海

链接：https://www.zhihu.com/question/33214635/answer/56058935

来源：知乎

著作权归作者所有，转载请联系作者获得授权。

如果从这两个定义来说，Pokemon GO也是可以算一种简单形式的AR游戏，至少给人在感官上的体验是符合AR的。其虽然我知道很多人认为下面这样才叫AR……但是我们还是要有信心的嘛!

这里我表达一下我个人对AR的看法：

不管是vision based还是LBS，AR在技术上的目标其实就是建立一个和现实场景1:1的虚拟世界。从CG的角度，AR最关键的技术点是建立一个相机坐标系，并能获取到现实场景中相应的模型信息(网格、位姿、材质等等)。那么vision based的方法目前可以做到对于已经注册过的识别对象，是可以获取到它在相机坐标系中的位姿信息。而LBS的方法更符合一般CG开发的流程，首先利用GPS建立一个世界坐标系，就可以获取到每个物体在世界坐标系的位置(包括相机)，这样你就可以将这些物体转化到相机坐标系中，思路差不多是这样，只是精度上存在一定问题。目前给AR下一个精准的定义还太早，我认为用户感官上觉得是虚实融合就可以算是AR。

回到顶部

0x02 - AR技术现状

虽然上面提到了很多次Pokemon GO，但是LBS的AR系统并不是我想研究的重点，毕竟从目前来看vision based的AR系统才是主流。但是局限于我个人的见识，只使用过Vuforia、EasyAR、ARToolKit。大家有兴趣的话，可以看一下知乎上的讨论 -有哪些比较优秀的AR开源项目，或者SDK？

Vuforia没得说，商业SDK，支持的特性也比较多，好像可以支持3D Object Tracking，具体支持到什么程度，还没有尝试，大家感兴趣可以登录Vuforia官网。EasyAR是国内的一款SDK，AR识别性能还是要赞一个，大家可以去看EasyAR官网视频，还是很真实地反映了其性能(不像Magic Leap之前那个鲸鱼的视频)，个人还是很看好的，比起Vuforia最大优势是免费使用时不需要水印(^_^;)。而ARToolKit相对上述两个SDK在识别性能和特性上表现的不是很突出，但是ARToolKit胜在开源，如果你需要做一些AR业务扩展，而Vuforia和EasyAR不能满足你，ARToolKit是一个很好的选择。而且AR其中一个趋势就是集成到现有App中，那么使用Vuforia和EasyAR的代价就比较大了。另外作为一个学生，抱着研究学习的心态，ARToolKit就再合适不过了。

所以后期我还是专注于ARToolKit的研究上，听说今年秋天ARToolKit6将发布，还是很期待的，ARToolKit官网链接请戳。

回到顶部

0x03 - ARToolKit概述

ARToolKit系统核心思路是这样的：

下面以NFT(自然图片追踪,Natural Feature Tracking)为例，简述AR实现流程

1. 通过相机校准(标定)，获取到因为相机制造工艺偏差而造成的畸变参数，也就是相机内参(intrinsic matrix)，来复原相机模型的3D空间到2D空间的一一对应关系。这对后面的特征提取步骤有很大作用。

2. 根据相机本身的硬件参数，我们可以计算出相应的投影矩阵(Projection Matrix)。

3. 对待识别的自然图片(也就是任意的一张二维图片)进行特征提取，获取到一组特征点{P1}。

4. 实时对相机获取到的图像进行特征提取，也是一组特征点{P2}。

5. 使用ICP(Iterative Closest Point)算法来迭代求解这两组特征点的RT矩阵(Rotation&Translation)，即Pose矩阵，也就是图形学中常说的模型视图矩阵(Model View Matrix)。

6. 有了MVP矩阵(Model View Projection)，就可以进行图形绘制了。

回到顶部

0x04 - ARToolKit支持特性

目前来说，ARToolKit支持自然图片/Marker/2D BarCode的识别。

自然图片处理

这个应用比较广泛，对用户的限制也会小很多。不过最好使用一些特征比较明显的图像，效果会更好。

Marker/MultiMarker

这是一种经过特殊处理的图像，需要在边缘包裹两层，最外侧是包裹了白色/浅色边缘，内侧是包裹了黑色边缘，大家猜也能猜出来这样做主要是提高识别度，同时也方便计算Pose(因为可以直接提取边缘来计算Pose)。如下图：

2D BarCode(二维码)

这个没什么好说的，最常见的。

另外ARToolKit目前支持的渲染引擎是OSG(OpenSceneGraph)，不过版本比较低。当然，你也可以使用OpenGL ES进行绘制。毕竟我们只需要获取到了MVP矩阵，理论上绘制部分是可以完全分开的。

【AR实验室】ARToolKit之概述篇 (转)

推荐阅读更多精彩内容