Latest Post

ChatGPT真格基金30 你能想到什么没错元宇宙新闻资讯大爆炸啦 论Facebook Surround 360相机制造背后的技术和成本分析

随着信息技术的高速发展虚拟现实、增强现实等逐渐火热。虚拟现实是一种完全建立虚拟环境让人类脱离现有环境进入新的世界它的广泛应用可能还要经过一段时间的积淀目前虚拟现实主要在科研仿真、虚拟漫游、游戏娱乐、教育培训等领域发挥作用。而从虚拟现实中发展起来的增强现实旨在增强人类能力为人类提供各种辅助信息成为沟通人类个体与信息世界的重要枢纽。目前已经在医疗、交通、教育培训、航天、通信、工业维修等领域发挥作用。相信增强现实的大规模应用会比虚拟现实更早一些可能取代智能手机成为下一代智能计算与显示平台将物理世界与信息世界联系得更加紧密。这里我们主要谈一下增强现实的相关内容。

增强现实Augmented Reality简称AR技术是一种基于计算机实时计算和多传感器融合将现实世界与虚拟信息结合起来的技术。该技术通过对人的视觉、听觉、嗅觉、触觉等感受进行模拟和再输出并将虚拟信息叠加到线c;给人提供超越真实世界感受的体验。目前广泛接受的一种定义是Azume在1997年提出的他认为AR应该具有三个特征

我们所要讨论的增强现实主要是视觉增强现实技术核心在于虚拟信息和真实世界在物理空间中的匹配以及可视化。增强现实是一个多学科交叉的研究领域内容纷繁复杂选取其中某个点深入下去都可以作为长久的研究课题。一个完整的AR系统至少有三个部分跟踪、注册和显示。

Sutherland在1968年完成了第一台头盔显示器堪称头盔显示器的开山祖师。不过由于当时技术限制该设备非常笨重需要悬挂在房顶上使用于是被戏称为“达摩克利斯之剑”。

70年代、80年代也有很多研究者做了相关的研究工作但是直到90年代初期“Augmented Reality”这个词汇才首次诞生。渐渐地增强现实脱去虚拟现实的外衣成为一个独立的研究领域。

随着21世纪初期智能手机的兴起增强现实有了天然的开发载体视频式的增强现实迅速发展起来。这也得益于ARToolKit和Vuforia等基于图像的跟踪定位工具的相继推出。如下图使用智能手机和平板电脑作为平台的增强现实应用目前已经非常普遍。

但是智能手机和平板电脑毕竟只是视频式的增强现实相比于光学式的来说还是少了一点科技感和刺激感。于是谷歌在2012年发布了Google Glass为增强现实的发展注入了新的活力。它对于AR发展的作用应该就像是Facebook的Oculus Rift之于虚拟现实一般。2014年3月26日Facebook宣布将以约20亿美元的总价收购沉浸式虚拟现实技术公司Oculus VR。这一事件极大地推动了虚拟现实的发展。

近眼显示设备主要是指头盔显示器。头盔显示器主要分为两种光学透射式头盔显示器和视频透射式头盔显示器。当然如果按照显示器件数量也可以划分为单目头盔显示器和双目头盔显示器。这里主要讨论光学式左和视频式右的区别。

光学透射式头盔显示器是直接透射外界的光线c;并且反射微投影器件产生的虚拟图像到人眼中达到虚实融合的效果。优点是可以保证正确的视点和清晰的背景缺点是虚拟信息和真实信息融合度低且人眼标定比较复杂。目前市面上典型的光学透射式头盔显示器有Hololens和Meta2等。

而视频透射式头盔显示器是将固定在头盔上的摄像头所捕获的图像通过视点偏移来显示到眼前的显示器上。优点是虚实融合效果好无需标定人眼缺点是视点难以完全补偿到正确的位置且与镜片范围外的环境不能完美衔接。将上面的光学透射式头盔显示器加上摄像头并且把带有增强信息的视频直接全屏显示就成为了视频透射式设备了。很巧的是很多光学透射式设备确实在其上加装了这种摄像头但是它们的本意是用摄像头来作为跟踪模块的。

手持式显示设备顾名思义就是拿在手上的显示设备。最常见的就是我们的智能手机和平板电脑。这类设备具有很好的便携性是一种天然的AR设备。它们有摄像头作为图像输入设备有自带的处理器有显示单元具备了进行AR开发的所有条件。在目前市面上很多增强现实APP都是围绕这类设备开发的。

桌面级显示器这是我们日常生活中最常见的一类显示器了。给它添加一个网络摄像头就可以完成AR任务了。该摄像头可以捕捉空间中的图像然后估计摄像头的位置和姿态最后计算生成虚拟信息并进行虚实融合输出到桌面显示器上。这类设备适合做一些科研类的开发对于商业应用显得有些笨重比起手机和平板来说稍逊一筹。

虚拟镜子这是利用摄像头对着人进行拍摄然后输出到一个类似于镜子的大型显示器上给人一种照镜子的感觉。同时还可以进行虚拟换装或者添加一些虚拟物件达到AR效果。

还有一些固定显示器类似于雾幕、水幕、全息膜等在上面投影出增强信息可以实现AR效果。

投影机是一种重要的虚拟现实和增强现实设备。最常见的基于投影的增强现实系统是在展会上的各种绚丽的投影展品包括虚拟地球、汽车表面投影等。这类系统属于空间增强现实系统。另外柱幕、球幕、环幕投影也可以归为基于投影的空间增强现实。

投影机还可以用于构建CAVE系统。手持式投影机结合图像捕捉设备还可以建立动态的空间增强现实系统。

增强现实中主要的显示设备就是以上这些。如果要开展关于显示技术的研究从硬件方面来讲就是显示材料、器件的研发。当然这与增强现实并没有高度相关性只能说显示设备参数的提升可以间接促进增强现实系统性能提升。但是显示方面软件还是可以有些值得做的东西并且与增强现实体验息息相关。那就是头盔显示器的显示畸变校正和投影机画面拼接融合这些技术都直接影响着增强现实系统虚实融合精度和整体可用性。

研究增强现实技术的人很多是侧重于系统集成和应用测评或者是直接将AR系统应用在其他的研究领域。因此这些人一般不会研究显示元器件的细节而更加关注如何拿现有的材料或者设备来构建新型显示系统。如果能够做出新的AR系统并且具有实用意义也是非常有研究价值的。

跟踪理论会涉及到一些空间坐标转换的基础知识以摄像机跟踪为例分为模型坐标空间、世界坐标空间、摄像机坐标空间和图像坐标空间。由于比较细节这里不展开讨论相关知识可以查阅计算机视觉书籍即可。这里以不同种类的跟踪系统为例来讨论跟踪技术。

机械跟踪器通过控制机械臂各个关节的转动来跟踪机械臂末端的空间位置属于比较老的跟踪方式但是精度可以控制得比较高。

电磁跟踪器是通过一个固定的发射源发射出三维正交的电磁场接收端通过检测接收到的电磁场的方向和强度来确定位姿。

GPS全称是全球定位系统。这个系统在智能手机上应用很普遍。它通过接收多颗卫星信号来确定当前所处的位置。对于户外大范围增强现实有着重要意义。

陀螺仪和线性加速度计都是依靠惯性来进行测量的。陀螺仪测量三轴角度变化线性加速度计测量位置变化。它们通常会配合使用并且常以微机电系统MEMS, Micro-Electro-Mechanical System的形式存在。

里程计是通过轮式或者光电编码器来测量所走过路程的一种传感器常用在机器人或者交通工具中。

有些跟踪需要对被跟踪的目标预先建模例如一些图像跟踪工具箱。有的则不需要提前建模例如同步定位与跟踪技术SLAM。多数跟踪是需要提前建立一个待跟踪模型数据库的然后在运行中实时提取特征并且与数据库中的数据进行比对。而SLAM则可以实时根据获得的特征自主建立空间地图并且确定摄像头相对于环境的位置。

目前研究的比较火热的是SLAM。因此可以研究SLAM中的各个环节从跟踪、建图、回环检测等角度研究如何提升SLAM系统的精度以及面对复杂环境的稳定性问题。

跟踪的稳定性与环境光有关尤其是基于视觉的跟踪。有些跟踪系统不需要自主添加光源只是利用环境光称为被动照明有些跟踪需要主动发射某种照明光线c;来实现其跟踪称为主动照明。被动照明是比较常见的例如平面标志跟踪就是在普通的环境照明下实现的。主动照明最典型的就是结构光照明例如Kinect。还有一种主动发射红外光的OptiTrack系统做姿态跟踪效果很好。

人工标志指的是人造的用于跟踪的图像标志等。例如二维码、棋盘格等。自然特征指的是自然环境中本身就有的特征不是人为放置用来跟踪的特征。普通的室内环境、街边的楼宇都可以认为是自然特征。人工标志根据其种类不同需要特定针对性算法进行检测和跟踪自然特征通常使用SIFT、SURF、ORB等特征描述子来进行特征提取和跟踪。

竞争式融合不同传感器测量的是同一个种类的参数则使用某种方式将它们结合起来产生一个更好的测量结果.

协作式融合不同传感器之间是协作关系其中某个传感器可能依赖于其他的传感器才能得出结果。

笔者认为纯粹的跟踪技术研究不仅可以服务于增强现实也可以服务于虚拟现实以及其他需要用到该技术的领域。研究跟踪技术可以从多视图几何方向入手通过几何的方式来估计位姿。也可以从特征角度入手针对特定的问题设计不同的特征表述方式解决问题。

SLAM研究者们通常会考虑怎样建立更加稳健的SLAM系统怎样对抗真实环境中的噪声怎样进行更好的回环检测等。研究惯性测量单元IMU与视觉融合进行SLAM的也大有人在多传感器数据融合对于SLAM来讲有重要的意义。

在研究基于视觉的跟踪技术时会用到很多计算机视觉算法。计算机视觉本身就是一个很庞大的学科感兴趣的读者可以根据自己的兴趣选择相应的书籍进行展开阅读。这里推荐两本书一本是《计算机视觉——算法与应用》另一本是《计算机视觉中的多视图几何》。

跟踪、标定和注册是AR系统研究的三个核心问题。前面我们已经讲了跟踪技术这里将对标定和注册进行叙述。

摄像头是基于视觉的AR系统的重要组件。所以在使用中必须先标定摄像头的内参数。对于普通的摄像头可以采用matlab自带的摄像头标定工具箱来标定。不仅可以标定出摄像头的内参数还能标定出镜头畸变。该工具箱采用的是棋盘格标定法。

镜头畸变可以分为径向畸变和切向畸变两种。它们也都可以通过标定来确定畸变参数。镜头畸变是普遍存在的所以在使用之前要记得先进行标定。

对于光学透射式头盔显示器要进行AR开发的线c;必须加上一个摄像头。摄像头与头盔显示器之间的位置关系需要标定。最常用的一种方法是单点主动对准法SPAAM。这个方法要求用户佩戴头盔显示器并且将屏幕上的一些十字光标与真实世界中的物体进行多次对齐多次对齐需要通过头部转动完成。数据获取后通过DLT方法构建方程组求解投影矩阵。

该方法需要将瞄准装置与显示器上的十字叉丝对准而不是使用在SPAAM中用到的静止标定点。这种瞄准装置经常是作为AR设备的一部分并且包括一个触发器来确认对准完成。瞄准装置有一个优势用户不必再移动头部来完成对准取而代之的是可以通过移动手臂来完成。

跟踪系统在进行测量的时候会存在测量误差导致位置估计不准。这种误差会导致注册的虚拟物体与真实物体之间会存在不匹配的情况。所以在每一个步骤要严格控制误差不要让误差在后面的环节中传播。

对于光学透射式增强现实来说还有另一个非常重要的问题那就是延迟。由于真实的环境背景是直接透射进人眼的可以认为是零延迟的。但是虚拟信息是通过摄像头捕捉环境建立跟踪注册信息然后渲染输出到头盔显示器上。这个回路的处理时间导致虚拟信息的渲染比头部转动会有延迟。一个比较有效的方法是在视觉跟踪的基础上加入高反应速度的IMU对这种延迟进行补偿。头部的快速运动可以根据IMU的反馈来渲染图像。

摄像头标定本身已经是一个很成熟的领域了除非有什么新的摄像头类型推出。光学透射式头盔显示器的标定也比较成熟但是还是存在问题。比如标定程序复杂不同用户之间通用性低。所以可以根据人眼与HMD之间的特殊性研究提升标定效果的方法。另外还可以考虑减小延迟比如考虑视觉-IMU融合。这种方法已经在Hololens上获得成功应用。减小延迟的方法除了使用视觉-IMU融合应当还有别的途径这些都是值得研究的地方。

增强现实系统呈现的效果应该是虚实高度融合的让人分不清哪里是虚的哪里是实的。高度融合体现在虚拟物体被放置在正确的位置上没有与真实物体产生错误的重叠。几何一致性还要求在时间变化中保证几何一致。例如在光学透射式头盔显示器中快速的头部运动会导致虚拟图像的渲染落后于线c;导致图像延迟现象。这就违反了几何一致性要求。

另外虚实遮挡也要保持一致。有的时候虚拟的物体在空间上应该被渲染到真实物体的后面。但是默认情况下虚拟的物体总会挡在真实物体的前面。因此必须使用额外的传感器探测出真实物体的空间位置然后决定哪些虚拟图像是应该被遮挡起来的。

还有一些研究人员对增强现实头戴式显示器的深度感知一致性做了研究。他们分析了使用双目头盔显示器看到的虚拟物体与真实物体在深度感知上的一致性。

虚拟世界的光线往往是认为设定的但是真实世界的光线是非常复杂的。因此渲染的虚拟物体怎样保持与真实环境一致的光照效果也是需要注意的。光照效果如果不一致尤其是阴影的渲染不一致的线c;会导致非常糟糕的效果。解决这个问题的途径是通过某个方式获得真实环境中的光源分布然后在虚拟世界中模拟这个光照效果。

视觉一致性分析实际上主要是对增强现实系统的表现进行评价。一旦涉及到用户研究就有很多值得研究的工作。比如研究AR系统的几何一致性对用户使用头盔效率的影响以及图像呈现与环境配合关系。尤其是光照研究自然光照是非常复杂的要想完全模拟自然光是非常难的。所以这个点上还是有很多值得研究的东西的。

交互听起来有些陌生有些抽象但是确是一个非常常见的过程。比如我们日常使用鼠标键盘就是在与计算机进行交互。人机交互就是人与机器之间进行信息沟通的过程。按照交互方式的不同增强现实中的人机交互技术可以分为多种下面一一介绍。

传统的交互最被大众熟知。鼠标键盘的几十年发展证明这种人机交互方式非常有效。但是对于增强现实应用却不一定是最好的结果。一些被广泛用于虚拟现实的设备例如数据手套、力反馈装置、数据衣等也可以应用在增强现实中但是加入这些装置后会明显觉得环境不协调对增强现实应用的效果有影响。

随着Kinect等设备的推出肢体交互在投影式增强现实中获得广泛应用。肢体交互不仅解放了双手而且促进了全身的均衡运动可以理解为一种非常健康时尚的交互方式。因此肢体交互在游戏娱乐领域获得了广泛的应用。

很多桌面级的应用也可以选择手势交互作为一种交互方式。手势交互依赖于手势检测设备现有的手势检测设备有LeapMotion和RealSense等。这类设备极大地促进了手势在人机交互中的推广。

随着人工智能技术的发展语音识别准确度和效率明显提升。因此语音交互也变得越来越普遍。

触摸交互是针对专门的触摸设备来的。其实触摸交互也算是比较早发展起来的了。大部分智能手机手势触摸屏而且有些智能眼镜也在镜框上设置了触摸区域。

通过图像设备捕捉人眼运动也可以实现人机交互。只不过这种方式仅仅适用于非常特殊的情况下长时间的眼动交互会比较疲惫。

最新的人机交互方式莫过于脑机接口。它通过读取脑的活动来产生控制信号对外界的设备进行控制。目前还只能实现比较初级的控制完全解读人脑意念信息还是任重而道远。

人机交互是一个非常大的研究领域在增强现实中涉及到的人机交互技术也有很多。我们可以针对某种交互形式展开研究无论是建立人机交互接口还是评测交互性能都是一个不错的切入点。相信很多读者都会有兴趣构建一套属于自己的人机交互系统吧。

增强现实中的可视化主要是对场景中的物体进行标注和解释。对于标注和解释的合理性和正确性需要经过仔细探究。一个场景中可能有很多东西可以标注也有很多来自数据库的信息可以呈现。但是如果不加选择全部显示出来还是会发成数据冗余、屏幕混乱的情况。因此需要对数据进行过滤考虑两个方面的问题第一标注的合理性第二数据推送智能性。

增强现实可以用于创作小故事运用该技术可以尽情发挥个人想象力构建出自己的各种物品、房间乃至城市。

增强现实技术可以应用于导航。将虚拟的导航信息叠加在真实的道路信息上甚至可以将信息投影在汽车的玻璃上最大程度为用户提供方便。

增强现实技术可以为多个用户创建一个统一的协作平台构建出一个虚拟的共享空间。多个用户不论是否在同一地点都可以通过增强现实的方式实现资源和信息共享。

根据一个系统中虚拟与现实的占比可以将系统分为4类真实现实、增强现实、增强虚拟、虚拟现实。而增强现实和增强虚拟又可以合称混合现实。

从上图可以看出橙色代表虚拟成分蓝色代表真实成分。当只有真实世界信息的时候属于纯粹的线c;典型的就是我们带摄像功能的手机以及我们佩戴的普通眼镜。当系统中既有真实信息又有虚拟信息的时候叫做混合现实。此时如果虚拟信息是服务于线c;且数量较少占次要地位则归为增强现实典型系统是手机导航系统如果虚拟信息是主体而真实信息是为虚拟信息服务的那就叫增强虚拟。最后如果信息全为虚拟则是虚拟现实典型系统是各类虚拟现实游戏。

增强现实技术已经发展了几十年但是还没有达到巅峰。增强现实的推广还必须依赖于几个方面的进步

可以预期在五到十年的时间里增强现实技术将会取得重大进步。各大科技巨头也将会重点布局这个新兴领域随之极大推动该产业的发展。增强现实技术与虚拟现实技术、人工智能技术将会紧密结合形成下一代科技的发力点极大革新人类的生活方式与生产方式。也许十年、二十年后增强现实设备就会完全取代智能手机成为下一代智能计算平台、社交平台和支付平台带领人类进入全新的发展阶段。

生产力的发展如此迅速增强现实普及之日并不遥远——然而当一切构想全部实现进入“增强现实”时代等待我们的下一个神奇又会是什么呢

在「3D视觉工坊」公众号后台回复3D视觉即可下载 3D视觉相关资料干货涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

在「3D视觉工坊」公众号后台回复3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

在「3D视觉工坊」公众号后台回复相机标定即可下载独家相机标定学习课件与视频网址后台回复立体匹配即可下载独家立体匹配学习课件与视频网址。

扫码添加小助手微信可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

3D视觉从入门到精通知识星球针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕更有各类大厂的算法工程人员进行技术指导。与此同时星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息打造成集技术与就业为一体的铁杆粉丝聚集区近3000星球成员为创造更好的AI世界共同进步知识星球入口