【转/整】VR/AR目前存在的技术难点

本人对VR/AR领域比较感兴趣,无意间在网上看到一篇《计算视觉连接虚拟和现实》的演讲,讲者是一位曾在世界顶尖处理器技术公司ARM、MIPS和Imagination工作超过10年的资深人士。内容简单易懂,但也不失深度,感觉不错,整理下分享给大家:

VR的精髓是从2D到3D的沉浸式用户体验。事实上,尽管业内人士谁都知道计算视觉、三维视觉非常重要,但全世界都还做得不好,目前整个行业最领先的水平也做得马马虎虎,离普通消费者的预期差距仍然比较大。即使我们很明确这个行业我们在做什么、现阶段是什么样子、我们想要解决什么问题、想要带给AR/VR什么样的用户体验,但很可惜目前还没有做好。

计算视觉(CV)技术已发展多年,但现阶段我们的产品和技术,其实和VR结合得并不紧密。如果这个问题没有解决,那么AR/VR不过就是一种新型的显示器而已。

数字化内容的产生

从内容上,所有内容的产生或者获取不外乎两种渠道。

第一种是从物理世界里获取,通过传感器、设备把物理世界数字化。现在的DV、电视机、手机、PC的显示器,内容的数字化其实很简单,说穿了就是拍照和拍视频。

第二种:在PC尤其是游戏里面,还有一种内容产生方法:CG(computer cenerated)。比如大量的三维游戏,比如科幻电影里的人物、场景,其实都是电脑+美工师+程序员产生的出来的。

通过这两种方式产生的内容,最终将通过某种设备呈现给人。我认为,从物理世界拍摄而来的内容,加上CG产生的内容的结合,在将来的任何AR、VR、MR等设备里都是非常重要的。

现在我们来关注一下,从物理世界怎么样通过传感器和设备来产生内容。第一种是比较常见的:平面格式内容,就比如用相机、DV来拍照片、视频等等。

但今天我想着重讲另外一种:三维格式内容。三维化的数字内容是目前这个阶段经常被忽视、用处也不太大的一种内容表达形式。但是在AR/VR里,三维格式的内容是很重要的一点,这是将来AR/VR普及后一种关键的内容方式。


物理世界数字化的形式

目前,AR/VR行业里面比较重要和主流的有两种平面格式内容:全景视频和立体视频。但不管是照片、视频、全景视频或者立体视频,本质上都是两维的平面数据。因为所有的这些内容,其数据本质都是一个个像素,每个像素存着的数据都是RGB(red、green、blue,红绿蓝三基色),每个像素点都是RGB的分量,它的内容本质上不包含任何空间几何信息。

三维信息数据是什么

什么样的内容才是三维数据?一定是在每个点上面,除了RGB数据,还要包含空间的位置信息,也就是还要有XYZ(三维坐标轴)信息。只有RGB和XYZ同时呈现,才是一种真正的、完整意义上的三维。


三维信息数据

人的眼睛看外面的世界,通过视觉渠道,是能够同时获得RGB和XYZ信息的。比如大家在看我时,能够看到衣服、头发等颜色信息,也有对我的身高、体型、我们之间的距离等空间几何感。当然人的视觉系统有个缺陷,对空间几何信息的量化比较差,比如你可以看出我们之间的距离是三米左右,但没办法看出是3.1米还是3.45米这样精确的信息。

现阶段所有的照片、视频把RGB信息采集回来后,是既服务于人,也服务于机器。比如机器里的人脸识别算法,处理的基础都是RGB信息;而人眼对RGB信息比较敏感,直接看RGB信息的视觉效果也是可以的。

至于XYZ信息,就有个特点:它主要是服务于机器的。因为每个点的XYZ数据是没办法直接给人眼识别的,视网膜还是只能感觉到量化的颜色信息。

举个例子,这是拍摄电脑包在某个咖啡馆里的一个场景。我把每个点的RGB信息量化出来,大家一看就知道这是个照片;但如果我把每个点的XYZ想办法显示出来,其实就很难。这个图我表达的意思是,XYZ信息怎样让人也有这种感觉?通常是XY先不管,把Z这个距离信息用着色方案先显示出来,但这只是给人一种感觉。

XYZ三维视觉信息的重要性

所以,XYZ数据直接丢给人眼是没有太大价值的,它主要是服务于机器。机器如果要做三维视觉,一定要有显性的RGB和XYZ数据。人的距离感可以自动脑补的,而机器拍摄只能拍摄到RGB信息,目前没有什么单一传感器可以把XYZ量化出来。机器如果有了RGB和XYZ信息,就可以发挥很强的视觉处理能力,比如说做三维建模,视觉效果增强处理等等。

机器拿到XYZ数据之后,可以真正把三维视觉的能力发挥出来,处理完了,再以某种方式输出到设备给人的眼睛和大脑。这时候,人就能够被AR/VR设备带到一个非常有沉浸感的虚拟或者混合世界里面去。

举例子说,这是一个视觉错感照片。


视觉错感

如果我此时问大家一个问题:这张图片里,是人离我近还是圆形物体离我近?如果是人来回答,那非常简单,我们都知道这个圆形物体是非常远的,而人不管是十公里还是二十公里,总是比月亮离我们近的。但是这样回答有个重要的前提,就是人其实已经把月亮的特征识别出来了,我们知道它是月亮。

如果把这个问题丢给机器,就会变得困难,因为机器只能识别出这里面有一个圆形物体和一个人形。进一步说,现在的人工智能或许能用最厉害的图像识别能力去识别出月亮,然后判断距离,回答我说人离我近。

但这已经是目前最先进的算法了。假如我们把问题变难,把月亮的特征抹去,只剩一个圆形,这时候再问:是人离我近还是圆形物体离我近?这下子人和计算机都没法回答了。所以如果要让机器处理这个问题,就要把每个点详细的XYZ数据显性地报告给机器。如果圆形物体的XYZ数据有了,人形的XYZ数据也有,这时候要判断距离谁近谁远,或者它们之间的距离,问题都变得极其简单。

所以计算视觉里最关键的问题就是,要做三维视觉,一定要通过某种传感器的方法,把显性的XYZ数据拿回来,否则三维视觉肯定是做不好的。

怎么获取三维视觉信息

这件事情目前在行业里怎么做?

我们现在的拍照手段还拿不到XYZ信息,因为现在的图像传感器就是个平面的光电传感器而已,每个点只能感应到RGB三个颜色的量化,拍照时是把物理世界的三维信息压到一个平面上,这是整个照片成像的物理基础原理,导致距离信息被天然损失掉了。

现在并没有一种魔术传感器能把XYZ数据拍下来,我们能用的只有图像传感器。图像传感器是目前可用的、唯一的能够把物理世界通过视觉方法拍摄回来并进行量化的渠道。

XYZ数据怎么获取,目前主流的方法只能是通过视觉的手段,使用图像传感器,辅助以一定的光学手段进行视觉计算。这就是我们讲的计算视觉里非常基础的一个技术点。

从原理上讲,只要两个摄像头,立体视觉就能够进行测距。但在现实当中,双目摄像头的测距方案存在非常大的使用局限,只有在非常良好的特定工作条件下才能勉强应用。所以从实际上讲,要做好一个三维传感器或者XYZ数据的量化测量,一定是要应用至少两个摄像头,或者一个摄像头、两个摄像头加一套复杂的光学系统,再加上专门的视觉计算方法,才能计算和测量完成。

三维信息和AR/VR的联系

有了这些三维信息,可以做什么事情,跟AR/VR又有什么联系呢?虚拟内容必须要跟物理世界完美贴合才能给人带来“真实感”,需要3D传感器对外部物理世界进行三维重建。

微软可以说是在民用的三维视觉技术点上,全世界积累得最多的公司,它做三维相关的硬件软件已经超过十年了。在这里举例微软的HoloPortation,一个很黑科技的东西。

当我和一个朋友一起带上微软的HoloPortation系统,在我的视野里面就会出现远程那个人的画面,那个人真实站在我面前,我可以围着他转,做动作等等。这其实就是把远程那个人的实时三维模型建立出来了,每一个时刻的三维模型,每一帧都是完整、准确的,然后通过AR/VR设备显示出来。


微软的HoloPortation系统

尽管对于普通消费者来看,这样建立出来的“人”视觉效果并不是很好,不高清,颜色也太过鲜艳,但微软的建模能力确实很厉害,这其中的技术难度是很大的,在行业里都称之为黑科技。这也是技术行业的边界和消费者需求边界的问题,需要有一个渐近的过程。

现阶段面临的问题

最后做个总结,目前我们存在的问题有:

第一,3D传感器,也就是XYZ的获取较困难,这个点是个薄弱环节。

第二,把RGB和XYZ数据采集回来后,怎么去承载和实现三维视觉算法的处理器,对处理器的要求非常大,目前的都不够用。

第三,视觉算法的软件实现、以及算法本身也还有很多问题需要解决。比如说怎么把三维模型建得又快又好。

第四,如果要做更多的智能识别,三维的物体样本库还没有,跟人工智能、深度学习还没有结合起来。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,639评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,277评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,221评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,474评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,570评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,816评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,957评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,718评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,176评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,511评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,646评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,322评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,934评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,755评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,987评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,358评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,514评论 2 348

推荐阅读更多精彩内容