苹果将在新一代产品iPhone 8上使用前置3D深度摄像头的消息,让3D深度摄像头的概念进入了普通大众的视野。实际上,未来众多前沿领域的应用将越来越依赖深度摄像头,比如VR、机器人、安防、自动驾驶等,这也是为什么国际巨头都在布局于此的原因。前段时间本站报道了,华为在北京发布荣耀V9,是业内首款3D建模手机,用户可以通过激光对焦获得人脸数据,通过算法构建人像3D模型,进而通过预装的APP链接3D打印平台的各类消费需求。
目前,3D深度摄像头已经渡过技术基础期,方向明确,将进入3-5年的成长期,未来将掀起3D传感器的浪潮。在这项技术引发革命前,我们先来简要了解一下。
什么是3D深度摄像头?
3D深度摄像头与普通摄像头的区别在于,除了能够获取平面图像,还可以获得拍摄对象的深度信息,也就是三维的位置和尺寸信息,于是整个计算系统就获得了环境和对象的三维立体数据,这些信息可以用在人体跟踪、三维重建、人机交互、SLAM等领域。
深度摄像头具备以下优点:
1)相对二维图像,可通过距离信息获取物体之间更加丰富的位置关系,即区分前景与后景;
2)深度信息依旧可以完成对目标图像的分割、标记、识别、跟踪等传统应用;
3)经过进一步深化处理,可以完成三维建模等应用;
4)能够快速完成对目标的识别与追踪;
5)主要配件成本相对低廉,包括CCD和普通 LED 等,对今后的普及化生产及使用有利;
6)借助 CMOS 的特性,可获取大量数据及信息,对复杂物体的姿态判断极为有效,无需扫描设备辅助工作。
3D深度摄像头采用的主流视觉技术
根据硬件实现方式的不同,目前行业内所采用的主流3D视觉技术有三种:结构光技术、飞行时间法(ToF)、双目多角立体成像。
1)结构光(Structure Light)
通过激光的折射以及算法计算出物体的位置和深度信息,进而复原整个三维空间。结构光的代表产品有微软的Kinect一代。通过发射特定图形的散斑或者点阵的激光红外图案,当被测物体反射这些图案,通过摄像头捕捉到这些反射回来的图案,计算上面散斑或者点的大小,跟原始散斑或者点的尺寸做对比,从而测算出被测物体到摄像头之间的距离。
目前是业界比较成熟的深度检测方案,很多的激光雷达和3D扫描技术都是采用的结构光方案。不过由于以折射光的落点位移来计算位置,这种技术不能计算出精确的深度信息,对识别的距离也有严格的要求。而且容易受到环境光线的干扰,强光下不适合,响应也比较慢。
典型的结构光方案包括:PrimeSense(微软Kinect1代)、英特尔RealSense(前置方案)。
2)飞行时间法(TIme of Flight)
TOF系统是一种光雷达 (LIDAR) 系统,可从发射极向对象发射光脉冲,接收器则可通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离。TOF系统可同时获得整个场景,确定3D范围影像。利用测量得到的对象坐标可创建3D影像,并可用于机器人、制造、医疗技术以及数码摄影等领域的设备控制。
TOF方案的优点在于响应速度快,深度信息精度高,不容易受环境光线干扰,这些优点使其成为移动端手势识别最被看好的方案。代表厂商有微软(Kinect2代)、意法半导体、英飞凌、德州仪器等。
3)双目多角立体成像(MulTI-camera)
现在手势识别领域的佼佼者Leap MoTion使用的就是这种技术。它使用两个或者两个以上的摄像头同时采集图像,通过比对这些不同摄像头在同一时刻获得的图像的差别,使用算法来计算深度信息,从而多角三维成像。
Leap MoTion方案使用2个摄像机获得左右立体影像,该影像有些轻微偏移,与人眼同序。计算机通过比较这两个影像,就可获得对应于影像中物体位移的不同影像。该不同影像或地图可以是彩色的,也可以为灰阶,具体取决于特定系统的需求。
双目多角立体成像方案的优点在于不容易受到环境光线的干扰,适合室外环境,满足7*24小时的长时间工作要求,不易损坏。缺点是昏暗环境、特征不明显时不适合,目前应用在智能安防监控、机器人视觉、物流检测等领域。
哪种技术最适合移动端?
综上,在主流的三种技术方案中,TOF方案响应速度快,深度信息精度高,识别距离范围大,不易受环境光线干扰,因此是移动端3D视觉比较可行也最被看好的方案;结构光方案由于技术较为成熟,工业化产品较多,也被部分厂商所采用;双目立体成像是比较新的技术,参与的厂商较少,更适合室外强光条件和高分辨率应用,目前主要应用在机器人视觉、自动驾驶等方面。
如文章开头所示,作为我们最为关注的移动端硬件——手机,尤其是苹果的功能提升,总会引发一场行业革命。苹果公司在iPhone7中使用了基于TOF原理的前置距离传感器(proximity sensor)。而在此之前,苹果的iPhone5和iPhone6s采用的都是LED+光探测器的方案。从LED+光探测器到TOF,表明移动端TOF方案在技术方面已经获得了巨大的进步。
相比其他两种技术,TOF时间光更加适合应用到智能手机上,采用TOF原理来实现动作追踪和深度感知已经出现在谷歌的Project Tango方案中,主要用于空间三维数据的采集,与应用于手势/脸部识别是非常接近的。
3D深度视觉技术已经出现在微软Kinect、英特尔RealSense等消费级产品中,随着硬件端技术的不断进步,算法与软件层面的不断优化,3D深度视觉的精度和实用性还将得到大幅提升,尤其是TOF方案与VCSEL的快速成熟,使得“深度相机+手势/人脸识别”具备了大规模进入移动智能终端的基础。这必将进一步解放双手,打开新的智能人机交互空间。