Augmented Reality(AR):增强现实
一些关于AR展示的视频
设备种类
平面显示
- 手机
现阶段的交互方式有:触摸屏幕,语音识别等,重展示,缺乏沉浸式体验
- 头戴式显示器HMD
各种便宜的AR盒子和眼镜都属于HMD,比起直接在手机上显示,多了一些沉浸式体验,但是交互不方便
穿透式显示
- AR Glass
[图片上传失败...(image-762f83-1524660499094)] -
平视显示器HUD
交互不便,精确的交互需要额外的设备,但是能够提供更加沉浸的AR体验,能够提供一般的基于图像的交互方式,如手势等操作,也能够提供体感的交互方式,也有设备能够提供基于视觉追踪技术的交互。
光学捕捉
-
直接合成光
太过高端,不适用于一般的场景
AR领域的产品
- 【Microsoft】HoloLens HUD
- 【Meta】Meta 2 AR HUD
- 【Google】 Google Glass AR Glass
- 【ODG】ODG R9 AR Glass
- 【Snapchat】Spectalces AR Glass
- 【Vuzix】M300 AR Glass
- 【Epson】Moverio BT-300 AR Glass
高端智能手机
- 【Samsung】S8, S8+, Note8
- 【Apple】iphone8, iphoneX
- 【HUAWEI】MATE10, P10
- 【Google】Pixel
大部分的AR设备都比较贵,2017年AR/VR设备的出货量大约有千万级别,但是智能手机的出货量大约有5亿台,既然手机和专业的AR/VR设备都能够进行增强现实的展示,那这二者又有什么区别呢?
展示方式和内容的不同:
手机上的AR展示主要是利用摄像头拍摄当前场景,然后对拍摄内容进行加工。而对于大部分的AR Glass或者是HUD来说,其多了一个步骤就是对人眼焦点的捕捉,并且由于采取头戴的方式,使得场景能够更加贴合人眼所看到的场景,比起拿起手机对场景进行拍摄,穿透式显示的方式能够带给人更多的沉浸式体验,也更加贴合增强现实这一特点,可以说手机的增强现实是拍摄场景的增强,而穿透式设备是对真实场景的增强。交互方式
手机的交互方式更贴合日常生活的使用,触摸屏操作便捷,并且精度较高,是手机或平板实现AR的主要交互方式。对于语音交互,这取决于自然语言处理NLP技术的发展程度,语音交互可以通过NLP技术转化为和触摸相同的处理方式,也可以添加专门支持语音的交互处理通道。
对于专业AR设备来说,由于设备操作的不便,其交互方式可以利用外接的操作设备,例如Oculus和HTC vive等VR设备的手柄等工具,但是这样会牺牲便捷性。由于能够实时获得人眼所观察到的真实场景,能够提供更加沉浸式的体验,可以利用这一特点,使得手势的交互成为主要的方式。同样的,专业AR设备也能够提供诸如体感或者语音等交互方式。设备性能:
现在市面上稍微高端的手机如Samsung的S8以上系列,Apple的iphone8以上的系列,都开始支持AR开发,因为这之前的手机的处理器计算力不够,而手机性能提升使得AR开发能够进行重要原因。对于专业的AR设备,如果不连接外置专门用于计算的处理器,仅仅靠设备内部的计算芯片,对于完成对场景的实时计算也是非常吃力的。专业的AR设备比起手机平板等电子设备来说,其计算力还是要高出不少,至少在AR开发上能做的更多。但是如果需要对复杂场景进行计算,靠移动设备本身的计算能力还是远远不够,必须要使用外置芯片用于计算。
AR可以用来做什么
对于不同的电子设备来说,其用途是不同的,在AR的用途上有一些区别,但是也有一些相同的地方
(所有需要一个精神上的指导,而并非实物的展示,或者说已经有实物,但是可以增强这种展示的意义,都可以用AR来实现):
一般的展示(重点在对现实展示,特点:有趣,互动,贴合真实场景)
文化艺术:博物馆的展示(有趣):对文物进行演示,演示细节,演示历史,演示故事等
生产生活(有趣,互动):绘图,视频会议,天气报道(有趣)
地图导航(贴合真实场景)(最佳应用场景?):展示现实场景并进行标记来指导方向,虚拟导游?
AR营销(有趣,贴合真实场景):支付宝和味全联合的AR广告,百事可乐,哈根达斯等等
美图,直播,社交(有趣,贴合真实场景):Snapchat推出的AR眼镜就包含一些AR应用,可以针对性的对场景和人物进行识别并添加各种有趣的东西。iphone可以根据人面部表情生成对应的动画表情
教育(有趣,重互动):特别是幼儿教育领域,各种贴合现实的特效,但是也是大部分属于游戏的一种。
军事领域?
大型舞台展示(有趣):奥运会“马里奥”,Dota2 国际邀请赛英雄展示,演唱会?AR电影(特效?)等
CarFinder(互动):保存位置信息,并可以根据指导找到车辆
交易领域(主要是需要看外观的商品,特点:各种需要与现实场景进行贴合模拟的展示):
车辆交易:对场景进行测量并显示虚拟车辆并查看
买衣服:虚拟试衣(各种虚拟的物件,眼镜,围巾,鞋子等等都算)
AR点餐(有趣)
Edmunds(real app):二手车交易
场景互动游戏(利用现实,重点在有趣和互动):
Pokemon Go
绘画游戏
简单的AR→复杂的AR
AR背后所使用的技术
AR需要做的是对自然场景进行识别并理解场景的意义,在理解意义的基础上叠加虚拟的成像,以增强真实场景所表现的意义。
其过程就是:理解真实场景 + 生成“真实+虚拟”的合成场景
可以获得的数据:
- 色彩二维图像
- GPS地理位置
- IMU数据
- 深度数据(可能):结构光,TOF相机,双目相机
- 虹膜识别(可能)
场景理解:基于图像特征+深度学习
一般场景识别:
- 图像识别(主要意义)
- 物体识别(多重意义)
人体识别(人脸识别+骨骼识别/动作识别):
- 人脸识别:表情+人物
- 动作识别:动作分类
场景重建+虚拟融合
三维重建
基于二维彩色图像的重建算法
基于RGB-D的重建算法
又可以分为实时重建和非实时重建
现阶段AR技术的缺点
以手机、平板为代表的低性能电子设备,其计算能力完全不能做到实时的场景重建工作,只能做一些简单的场景理解,而且这些场景理解也是建立在简单的特征提取上,对于复杂场景的处理也不太够,所以手机AR展示一般只能部分贴合场景。
以便携式的HUD、AR Glass等设备为代表的新一代AR设备,其计算能力虽然大幅提高,但是现阶段也没有办法做到高精度的三维场景重建,但对于一般的场景来说,这种方式可以带来更好的AR体验。
除去对计算性能的要求之外,实时AR对于算法的要求也比较高,现阶段的算法对于静态场景的支持还可以,但是场景变化较大时,特别是室外场景,对算法的要求就非常高。
所以,对于现阶段的AR技术的应用来说,其场景计算量还是太大,在硬件能力足够的前提下,虽然能够带来不错的体验,但是AR实现设备大部分都是手机/平板等设备,所以如何能够使得AR的体验在现阶段达到最大化是一个问题。而且现阶段的AR应用能支持的场景也仅限于静态场景,对于动态场景的支持可以接近于0.
AR应用实现方法
-
在对场景识别检测要求不强以及无需重建的前提下,可以利用设备本身的性能进行计算。
引入外部SDK+生成对应的三维图像(unity3D开发)
流行的AR开发套件:
- 采用外部设备来进行计算,如现在的云平台,设备在联网的前提下,将捕获的图像传送到后端,然后后端对传送的图像通过AR技术来执行场景识别以及场景重建的工作,最后把处理完的数据返回给手机端,这一过程主要分为传输和数据处理两个步骤,传输则需要保证稳定性,数据处理步骤就是一般的AR图像处理,但是对计算速度有一定的要求。
现阶段的比较成熟的大型AR展示大致都是基于第二种方案,手机+云端,云端可以自己部署,也可以通过第三方提供的方案。而比较小的应用都采用的是手机内部进行识别,但是这种识别效果比较差,而且应用范围非常小,不适用于一般的场景,只适用于特殊的场景。