AR技术流程图
两大挑战
在AR的技术流程中,数据的采集(包括影像和传感器)已经比较成熟,显示端和渲染端的技术也有了长足的进步。相对而言,中间的对于环境和交互的精准理解就是目前的瓶颈了。上图中间的基于多模态(简单说就是影像+传感器)的环境和交互理解,是两个充满了各种或明或暗的坑的领域,足以让很多假的猛士知难而退。
环境坑:成像环境的变化常常给计算机视觉算法以及AR带来很大的挑战
人的脑细胞里面大多数都是用来处理和理解双眼所获取的视觉信息的,很多我们惊鸿一瞥就能理解和感知的东西得益于我们强大的脑处理能力。各种环境变化对视觉信息的影响我们不但能轻松应对,有时还能加以利用。比如我们的认知能力对光照明暗的变化相当的棒;比如我们可以通过阴影来反推三维关系。而这些对于计算机(确切些说是计算机视觉算法)来说都是不折不扣的坑或者大坑。理解了这种坑,就不难理解为什么很多看起来美轮美奂的demo实用起来那么悲催,可能的原因包括光照变了、形状变了、纹理变了、姿态变了、相机变了、背景变了、前景变了;有阴影了、有遮挡了、有噪声了、有干扰了、有畸变了等等。更加悲催的是,这些影响系统效果的因素在我们人类的视觉系统中经常是难以察觉的,以至于小白用户们经常对我们的工作能力表示狐疑并产生亲自上手的冲动。
设计坑:一个好的AR应用往往是需要算法工程实现、产品设计、内容制作等方面的深度结合
往小了说,很多具体的应用领域(比如游戏)都已经成功地引入了AR的元素;往大了说,AR的终极形态可能从根本上改变当前的非自然人机交互模式(请脑补微软Win95的成功和现在的HoloLens)。举个例子:某AR游戏里面需要在跟踪的Marker上进行游戏内容叠加,而该游戏的特殊性使跟踪的精确性难以保证(好吧,其实是算法做得不够给力)从而导致影响用户体验的抖动。这种情况下,一个简单有效的办法是把要叠加的内容做得动感十足,这样一来用户就感觉不到令人不爽的抖动了。类似的实战例子非常多,有的是从渲染端解决的,还有更多的是针对具体用例做算法层面的优化定制。
AR跟踪配准技术发展
三维配准是链接虚实的最核心技术,没有之一。大致说来,在AR中配准的目的是对影像数据进行几何上的精确理解。这样一来,就决定了要叠加的数据的定位问题。比如说,在AR辅助导航中如果想把导航箭头“贴在”路面上(如上图),就一定要知道路面在哪里。在这个例子中,每当手机摄像头获取到新一帧图像,AR系统首先需要将图像中的路面定位,具体的说就是在某个事先设定的统一的世界坐标系下确定地面的位置,然后将要贴的箭头虚拟地放在这个地面上,再通过与相机相关的几何变换将箭头画在图像中相应的位置(通过渲染模块完成)。
尽管近年来的进展使得单目SLAM (即时定位与地图构建simultaneous localization and mapping)已经能在一些场景上给出不错的结果,单目SLAM在一般的移动端还远远达不到随心所欲的效果。计算机视觉中的各种坑还是不同程度的存在。在AR中比较刺眼的问题包括:
初始化问题:
单目视觉对于三维理解有着与生俱来的歧义。尽管可以通过运动来获得有视差的几帧,但这几帧的质量并没有保证。极端情况下,如果用户拿着手机没动,或者只有转动,算法基本上就挂掉了。快速运动:
相机快速运动通常会带来两方面的挑战。一是造成图像的模糊,从而控制点难以准确获取,很多时候就是人眼也很难判断。二是相邻帧匹配区域减小,甚至在极端情况下没有共同区域,对于建立在立体匹配之上的算法造成很大的困扰。纯旋转运动:
当相机做纯旋转或近似纯旋转运动时,立体视觉无法通过三角化来确定控制点的空间位置,从而无法有效地进行三维重建。动态场景:
SLAM通常假设场景基本上是静止的。但是当场景内有运动物体的时候,算法的稳定性很可能会受到不同程度的干扰。
AR产品分类
内容型
内容型产品技术门槛不是特别高,应用的也是市面上比较成熟的技术,及二维码和二维图片的识别跟踪技术,重点还是在结合实际业务需求的互动性设计,内容创作等。代表作品有:
- 摩拜推出AR“猫Bike单车”
- 小鸿科技推出的AR拜年
- IKEA Place 宜家家居 AR 应用
游戏/工具型
游戏/工具型产品门槛相对而言比较高,要想能够让AR产品有一个良好的互动性和沉浸性体验,计算机视觉和和相关硬件设备是必须要想办法解决的,如三维环境的及时跟踪技术。代表作品有:
- 福特汽车于2014年开始与Oculus Rift团队合作,在虚拟环境中快速设计、原型化和评估车辆。
- AR导航Hotstepper
AR产品经理的作用
在这个算法技术不够成熟,硬件设备不够完善的时期,迫切需要一类人能够通过巧妙的设计规避现有的AR技术瓶颈,实现产品的商业化,为公司企业带来盈利,让公司能够持续发展。
AR产品经理的作用大抵如此,了解现有的市场商业环境,收集用户的核心需求,结合公司现有的技术开发出能够满足现阶段用户需求的产品。
技术风向标
横看今天各路AR诸侯的技术风标,不难总结出三个主要的方向:语义驱动,多模态融合,以及智能交互。遵循业界性感造词的惯例,我们将他们总结成:
SMART:Semantic Multi-model AR inTeraction
即“语义驱动的多模态增强现实和智能交互”。由于这三个方面都还在飞速发展,技术日新月异,我下面就勉强地做一个粗浅的介绍,表意为主,请勿钻牛角尖。
语义驱动:
语义驱动在传统的几何为主导的AR中引入语义的概念,其技术核心来源于对场景的语义理解。为什么要语义信息?答案很简单,因为我们人类所理解的世界是充满语义的。
多模态融合:
随着大大小小的AR厂家陆续推出形形色色的AR硬件,多模态已经是AR专用硬件的标配,双目、深度、惯导、语音等等名词纷纷出现在各个硬件的技术指标清单中。这些硬件的启用显然有着其背后的算法用心,即利用多模态的信息来提高AR中的对环境和交互的感知理解。比如,之前反复提到,作为AR核心的环境跟踪理解面临着五花八门的技术挑战,有些甚至突破了视觉算法的界限,这种情况下,非视觉的信息就可以起到重要的补充支持作用。比如说,在相机快速运动的情况下,图像由于剧烈模糊而丧失精准性,但此时的姿态传感器给出的信息还是比较可靠的,可以用来帮助视觉跟踪算法度过难关。
智能交互:近来,机器智能的发展使得计算机对人类的自然意识的理解越来越可靠,从而使智能交互有了从实验室走向实用的契机。从视觉及相关信息来实时理解人类的交互意图成为AR系统中的重要一环。在各种自然交互中,基于手势的技术是目前AR的热点。一方面由于手势的技术比较成熟,另一方面也由于手势有很强的可定制性。
参考
作者:LadyCoder
链接:https://www.jianshu.com/p/939a262826c5
來源:简书