随着2017年苹果iPhoneX手机的发布,移动端3D人脸识别技术一夜成名,它的登场开启了智能交互的新时代。相比于触控屏手指无法离开屏幕、语音识别应用场景存在的局限性,基于3D 视觉的手势/人脸识别进一步解放双手,给用户带来了全新的智能人机交互体验。
3D识别被广泛看好,前景广阔。无论是消费级市场的游戏、娱乐、交互,还是商业领域的医疗、工业、安防、军事等,都需要丰富的手部动作来参与,因此手势识别具有非常广泛的应用场景。而人脸识别在移动端身份认证、支付交易、权限登录、识别用户表情或精神状态、自拍快速对焦、自拍美颜等方面具有无限潜力。
可以预见一旦3D视觉进入大规模普及,将对现有的消费电子产品产生颠覆性的影响。因此,包括苹果、谷歌、微软、英特尔、索尼、三星等科技巨头,均在深度相机、体感交互、动作捕捉等领域展开了深度的布局,或并购,或专门成立研发团队,快速获得先进技术,实现技术和专利的储备。面对这一风口,谁能抢占先机,谁就能分得一块蛋糕。因此,国内产业链纷纷布局,安卓阵营紧跟iPhone X的步伐。
今年5月底,小米率先推出了首款3D结构光的安卓智能手机——小米8透明探索版,采用了以色列的3D编码结构光技术厂商Mantis Vision的方案。紧接着在6月,OPPO也推出了支持3D人脸识别的新一代旗舰机——Find X,这款手机采用的是类似iPhone X的散斑结构光技术,由国内知名的3D感测技术厂商奥比中光提供技术,丘钛提供模组。而华为发布的Mate 20 Pro前置的3D结构光模块,更高精度地实现了对于人脸部五官细节的重绘,使得美颜效果更具有立体效果,而且很大可能手机会支持刷脸支付。同时Mate 20 Pro还可以利用手机扫描现实中的物体或人物,然后进行3D建模。预计明年上半年,更多搭载有3D人脸识别的安卓手机将陆续亮相。
我有幸参与到3D成像技术的研发,亲眼见证一个团队白手起家。一年之内,从人才招募、设备购买,到产线建立,从概念到生产,亲眼见识了每一道工艺的真实面目。从长三角到珠三角,多地出差,当面交流,第一现场了解了相关公司的加工能力。
原来一颗小小的3D摄像头,背后聚集了如此复杂的工艺技术,不仅让我这个混迹职场八年的工程师大开眼界,就连我那些70后的资深工程师们,也都惊呼这一年的见识远胜于之前多年的工作经验。这是与君处一年,胜读十年书啊。
这一路,从行业到产品,从产业链到工艺,从理论到实践,我发现只要留心深挖,每一处都是宝藏。于是我提笔整理,从点到面,将理论剖析和实践经验所获所感一一记录下来,倾囊分享。
3D成像的三种主流设计方案
说到3D成像技术,有必要先了解它的几种实现方案。根据原理和硬件实现方式的不同,行业内所采用的3D机器视觉主要有三种:结构光、TOF 时间光、双目立体成像。
三种主流的方案中,比较成熟的是结构光和TOF时间光。其中结构光方案最为成熟,已经被成功应用于游戏体感交互、工业机器视觉检测、智能手机等领域,但是极易受到外界光的干扰、响应速度较慢、识别精度较低;TOF 时间光方案被广泛应用于医疗检测、机器人视觉等领域,在消费电子方面,受到谷歌、意法半导体、德州仪器、英飞凌等公司的支持;双目立体成像方案抗环境光干扰强,分辨率高,也是移动端可选方案之一,但是技术较新不够成熟,目前在机器人、自动驾驶领域应用较多。
1、结构光(Structured Light):首先红外激光发射器(IR LD)发射出近红外光(IR Light)特定图案(如激光散斑等),经过物体(如人手或人脸等)的反射之后,形变之后的图案被红外图像传感器(IR CIS)所接收,经过算法计算出人手/人脸所处的位置(Z 轴);同时,可见光图像传感器采集二维平面(X与 Y 轴)的人手/人脸信息(Vis Light);两颗图像传感器的信息汇总至专用的图像处理芯片,从而得到三维数据,实现空间定位。
2、TOF(Time Of Flight):通过持续的给被测物体发送光信号,然后传感器端接收到回传的光信号,经过计算发射和接收光信号的往返飞行时间来得到被测物体距离的技术。
3、双目测距(Stereo System):利用双摄像头拍摄物体,再通过三角形原理计算物体距离。
TOF与结构光的区别在于对红外光的使用方式不同,TOF通过计算红外光发出光线与返回光线之间的向位移变化换算为位置信息,而结构光依靠向物体投射一系列光线图案组合,然后通过检测光线的边缘来测量距离,二者的硬件结构是类似的。二者比较明显的区别在于,在红外光发射端,TOF基本不需要使用光学棱镜,而结构光由于需要形成特定的光学图案,所以需要添加DOE(衍射光栅)和Lens(光学棱镜)。
3D成像不同方案优缺点对比
三种方案的优缺点,下面这张表格让我们一目了然:
3D 视觉三种方案各有优缺点:
双目立体成像方案软件算法复杂,技术还不成熟。
结构光方案技术成熟,功耗低,平面信息分辨率高,但易受光照影响,识别距离近。
TOF方案抗干扰性好,识别距离远,但是平面分辨率低,功耗较大。
3D成像硬件构成
无论是结构光方案、TOF方案还是双目立体成像方案,主要的硬件包括四部分:红外光发射器(IR LD)、红外光摄像头(IR CIS)、可见光摄像头(Vis CIS)、图像处理芯片,红外摄像头需要特制的窄带滤色片,另外结构光方案还需要在发射端添加光学棱镜与光栅,双目立体像多一颗IR CIS。
每一部分由哪些构成?功能是啥?又涉及哪些工艺和相关供应商呢?问得好,我们下期聊聊。