首先,VR得益于三维游戏的发展,而AR收益于影视领域的跟踪技术(video tracking)的发展。从技术门槛的角度来说,VR、AR和移动端重合的技术有:显示器、运动传感器、处理器、储存&记忆、无线连接……所以在硬件上,这些都不是技术难点。
VR、AR的难点都在感知和显示,感知是一种mapping,VR mapping的是一个lighthouse的空间或者PS camera mapping的一个交叉;在显示上,VR如何精准地匹配用户的头部产生相应的画面,AR则在这基础上算出光照、遮挡等情况并让图像通透不干扰现实中的视线。
而VR硬件的难点在于光学的镜片技术和位置追踪技术,因为以前的移动端不涉及这些技术。
而AR的硬件难点在于显示和感知,显示最大的难点在于accommodation,因为用户看见虚拟物体固定在2-3米的位置,而现实物体却可以前后聚焦,如果这时虚拟物体放在现实物体上,则会引发辐辏→用户聚焦错乱;而在感知上,即使是有Kinect是十几年积累的hololens,它已经做到世界第一了,可它的spatial mapping仍需要花费很多时间去扫描去建模,至限在狭小的室内走来走去,而在室外就完全失效了。
当然,也因为这些技术的门槛,导致硬件价格居高不下。
正因为此,AR行业一片冷寂,而VR行业非常火爆,因为VR的技术门槛比AR低一个数量级,VR更容易成功。
而从软件角度来说,现阶段视觉上的难点比较多:
VR的核心技术是tracking(追踪)和CG(计算机图形)。三自由度的方向追踪,六自由度的位置追踪(见《追踪设备的使用场景和覆盖范围有哪些局限?是否会影响VR可交互的空间的设计?》)
而AR的核心技术主要是
计算机视觉(computer vision)
物体识别(object recognition)。
包括人脸识别
区域识别
如果说广义的VR和AR还包括其他的交互方式,比如语音识别(speech recognition)
手势识别(gesture recognition)
最近上Stanford的CV课学到的几个知识点搬上来——
AR要把虚拟物体整合(integrate)到现实环境中来,它需要摄像头来建立现实空间的坐标系。
三种图像配准(image registration):
1. interest points(兴趣点)
2. fiducial markers(基准标记)
3. optical flow(光流)
几种图形处理( image processing):
1. corner detection(角点检测)
2. blob detection(斑点检测)
3. edge detection(边缘检测)
4. thresholding(阈值)
根据上面的图像配准(image registration)和图形处理( image processing)建立现实世界的坐标系统(real world coordinate system)。