扩增实境:观察世界的新视角
一些计算机专家正在开发全新的系统,它可以优化和丰富用户所观察到的现实世界的图景。
Steven K. Feiner
你有没有想过,10年后计算机用户所接触到的计算机界面会是什么样子呢?
如果从现有的系统推测,高清晰度显示器的使用会快速增长,这是显而易见的:从小巧的手持式或腕戴式装置,到嵌入书桌、墙壁或地板内的大型屏幕,这类显示器到那时毫无疑问将司空见惯。但我和其他计算机科学家都相信,一种类型完全不同,称为“扩增实境”(Augmented Reality,AR)的用户界面将会异军突起,它将对未来计算机的发展以及我们与计算机的互动,产生更加深远的影响。
扩增实境是指把虚拟信息添加到使用者感官知觉上的计算机显示器。大多数AR的研究都致力于“透视”装置,通常这种装置戴在使用者头上,并将图像和文字加入用户视觉观察到的周围环境所产生的画面上(虚拟信息也可以以听觉、触觉等其它形式出现,但本文仅讨论视觉形式)。AR系统会跟踪用户头部的位置和方向,以使虚拟信息资料能对准使用者的所见。这一过程称作“登录”。例如,通过这种绘图软件可以将一个三维(3D)茶杯影像放到一个真实的碟子上,并且当用户在屋内走动时,可以使茶杯的相对位置保持不变。“扩增实境”系统采用某些与“虚拟实境”一样的硬件技术,但两者有一个最关键的不同之处:虚拟实境VR(Virtual Reality)是通过软件用虚拟世界代替真实世界;而扩增实境AR则是在实体对象上加入补充的虚拟信息。
展开你想象的翅膀,考虑一下AR可能会普遍到何种程度?维修人员在检修设备上故障部位时,可看到针对该部位的一些说明。外科医生通过观察患者内脏的超声波扫描,就可看到等同于X光照出的影像重叠在病人身上。AR还能帮助消防人员看清失火建筑物的结构,避免无法看到的危险因素。士兵可以通过无人侦察机传来的信息,看到敌方狙击手的位置。旅客沿着整条街扫视过去,就能看到这个街区每一个餐馆的介绍。计算机游戏玩家在上班的路上,就可以与游戏中3米多高的外星人进行殊死搏斗。
在所有这些应用中,最关键的技术就是在正确的时间和正确的地点获得正确的信息。例如掌上和手持式电脑等个人数字“秘书”,利用无线网络和持续跟踪手持装置的全球定位系统(GPS)接收器,随时随地为主人提供信息。但AR与众不同的是信息的呈现方式:不必使用独立的显示器,而是同用户自身的感官结合。这种界面能让用户避免在现实世界和计算机屏幕之间来回切换,从而减少了额外的脑力活动。在扩增实境中,使用者的视野同计算机界面完全合二为一。
尽管AR听起来有些像科幻,不过研究人员开发原型系统的历史已有30多年。20世纪60年代,计算机绘图先锋Ivan Sutherland和他在哈佛大学和犹他大学的学生,设计了第一套AR原型系统。70年代和80年代,美国空军阿姆斯特朗实验室、美国航空航天局艾密斯研究中心,以及北卡洛莱纳大学教堂山分校等机构中,有少数研究人员曾对AR进行过研究。“扩增实境”这一术语直到90年代初才由波音公司的几位科学家提出来,当时他们正在开发一种实验性AR系统,协助工人连接错综复杂的线缆。过去的10年是扩增实境研究的全盛时期,因为硬件价格下跌了很多,所以可以较容易地获得各种必要的实验设备。从1998年起,科学家每年都要在“扩增实境研讨会”上碰一次头。
自从Sutherland首开先河以来,虽然信息技术领域发生了巨大变化,但是AR系统的主要组成部分并没有改进多少:还是由显示器、跟踪器、图形计算机和AR系统软件所组成。近年来,这些组成部分的性能有了很大的提高,才有可能使实验系统设计出来后,很快就能开发成商业产品。
眼见为实
根据定义,AR系统中的这种视透显示器必须能呈现虚拟和真实相结合的信息。尽管某些AR显示设备可以是手持式或固定式,但多数还是头戴式。它就戴在眼睛前面,这样原来很小的屏幕可以在视觉上产生很大的影像效果。头戴式显示器其实指的就是装配在头上的显示器(head-mounted displays,HMD)。(我总觉得这有点怪怪的,有谁会愿意在自己的头上“装配”上个什么东西呢?所以,我更愿意称它们为头戴式显示器。)。
这种头戴式显示器可分成2类:光学视透式和视频视透式。光学式视透显示器最简单的实现方式就是使用分光镜(beamsplitter),是一种半镀银镜子,既能反射光又能让光穿透。如果把分光镜放在用户眼前的合适位置,就可以将计算机显示器屏幕上的内容反射到用户的视线内,同时又能让周围现实世界环境中的光线透射进来。这种称作“合成器”的分光镜,在喷气式战斗机飞行员的抬头显示器上早有使用(最近也用在了豪华汽车中)。在分光镜和计算机显示器之间放几个透镜,即可调整影像的焦点,使它看起来像是隔着某个舒适的观察距离。如果两只眼睛都配上一个显示器和镜片,图像就会呈现出立体感(见上图)。
与之相反,视频式视透显示器采用了原为电视特效而开发的视频信号混合技术,这种显示器将头戴式视频头所拍摄的现实世界影像与计算机合成图像结合(见下页图所示)。最终合成的图像呈现在不透明的头戴式显示器上。通过精心设计,让视频头的取景光线非常接近使用者眼睛的视线,这样它所产生的视频图像就与使用者自己所观察到的真实图像几乎一模一样。同光学式显示器一样,只要左右眼各有一套系统,即可产生立体影像。
视频式视透显示器使图像结合的其中一种方法,就是将合成图像与背景区别开来,把视频头传来的图像中的像素一个一个地同合成的虚拟图像的相应像素进行比较。如果来自计算机的虚拟图像的某个像素中包含背景色,视频头拍摄到的图像的像素就出现在显示器上;否则虚拟图像的像素就出现在显示器上。此时合成的虚拟图像会掩盖住它后面的真实对象。或者,存储各个像素的独立信息通道都能表示由虚拟信息所决定的像素片段。这种技术也可用来显示半透明的图像。此外,如果系统能够判断真实物体与观测者之间的距离,则计算机图形算法就可产生真实对象遮住了(部分)更远处的虚拟对象的错觉(光学式视透显示器也具有这样的能力)。
这两种视透显示器的设计各有其优缺点。使用光学式视透显示器系统,可以看到清晰、全视域的真实世界。但目前光学式视透系统中的覆盖图像仍是透明的,因此不能完全遮住后面的实物。这样,在某些背景之下,叠加在上面的文字看起来会很吃力,而且这种三维图像可能无法达到足以乱真的幻觉。此外,使用者看物理对象时,通过实际距离聚焦成像;但看虚拟对象时却聚焦在显示器平面上。这意味着,原本打算让某个虚拟对象与某个物理对象在同一个位置,这种投射方式也许从几何学来说是正确的,但使用者可能无法同时聚焦在这两个对象上。
在视频式视透系统中,虚拟对象能够完全遮盖住物理对象,而且可以用各种丰富的图形效果和物理对象融合。再者,眼睛对虚拟和物理对象的聚焦方式也没有差异,因为使用者观看时,它们都处在同一个平面上。然而,由于目前视频技术水平的限制,它呈现真实世界的视觉质量会大打折扣,甚至会降到合成图像的水准,而且所有东西都聚焦在了相同的距离上。毕竟目前的视频头和显示器的成像质量都无法与人眼相比。
Sutherland及他的学生设计的最早的视透显示器非常笨重,其中有许多阴极射线管和庞大的光学元件。如今,研究人员使用小型液晶显示器和先进的光学元件,制造出来的视透显示器系统总重量不过几十克,而且近期还会有更多的技术改进,比如微视公司(Microvision)最近开发出了的一种新设备,使用低功率激光器把图像直接投射到视网膜上(参看本刊2001年12月号“新闻扫描”栏目Phil Scott所著“不妨碍视野的目视器”一文)。
方位跟踪
实现AR的一个至关重要的条件,是正确无误地将虚拟对象与使用者所见到的物理对象相匹配。要想实现这种空间对应关系,AR系统必须能够精确地跟踪使用者头部,并利用这些数据渲染(绘制)图形。一些AR系统还要求能够对某些移动实体对象进行跟踪,例如:一个为修理喷气式飞机发动机提供视觉指导的系统,需要在拆卸的时候跟踪引擎零件的位置和方向。因为跟踪系统通常需要监控每个对象的6个参数:3个空间坐标(X、Y、Z三个方向)以及3个方位角度(前后倾斜,两侧摇晃和左右旋转),所以这些跟踪器常被称作“六自由度跟踪器”。
在Sutherland及其同事设计的AR原型系统中,曾有过这样的一个试验:从天花板上悬下一个机械式跟踪器套在用户的头上。他们也试过使用超声波跟踪器,通过传递声音信号来测定用户的位置。此后,研究人员不断改进跟踪技术,并且涌现出了电磁式、光学式和视频式等一系列跟踪器。跟踪器主要由两部分组成:一部分安装在跟踪的人或者物体之上,另一部分则建到周围环境中去,通常是在同一个房间内。用光学跟踪器追踪的目标,例如发光二极管和反射镜能和被跟踪的人或者物体固定在一起,光学传感器阵列则安装在房间内的天花板上;当然反过来也可以,让被跟踪者佩戴传感器,把目标固定在天花板上。通过计算每一个可见目标的距离,传感器就可以确定用户的位置和方向。
在日常生活中,人们依赖于几种感官来保持空间位置感:他们所获得的视觉信息、内耳所提供的听觉信息以及地球对身体的引力。同样的道理,“混合型跟踪器”也需要各种不同的信息来源;例如,在用户穿戴着AR显示器的同时,也可以装备上惯性传感器(陀螺仪和加速仪)以记录头的运动方向的变化。将这些信息再和来自光学、视频或超声波设备的数据结合起来,便可大大提高跟踪的精度。
AR系统的设计有没有考虑过在户外使用的情况呢?如果一个人离开了配备传感器的房间,该将如何实现跟踪呢?我们在美国哥伦比亚大学实验室设计的户外AR跟踪系统,可以进行方向与位置的分别跟踪。头的方向由市贩的商业混合跟踪器来完成,这种混合跟踪器由测量地球磁场的磁力计、陀螺仪和加速计组成。位置跟踪则由现在十分流行的全球定位系统(GPS)接收器来解决。
GPS接收器通过读取导航卫星上发回的无线电信号来确定其所处方位。目前手持式接收器的价格虽然不高,但其精度却十分有限,误差可能达数米。采用差分GPS系统,可得到比较精确的数据。在这种情况下,移动式GPS接收器可监控来自地球上固定地点的其它GPS接收器以及无线发射器发出的无线电信号。发射站会根据固定位置GPS天线的已知数据与计算出来的位置之间的差异,来生成纠偏信号并发射出去,差分GPS系统就可以将误差缩小到一米之内。我们设计的GPS系统由于采用了实时动态GPS,可以达到厘米级的精度。这种差分GPS系统结构复杂、精确高,也会比较固定和移动GPS接收器上信号相位的差异。
不幸的是,GPS并不是位置跟踪的最终解决方案。因为卫星信号很弱,很容易被建筑物甚至是树木的枝叶遮档住。这就排除了在室内或者在类似曼哈顿这样的地方使用的可能性,因为像曼哈顿这样的城区高楼林立,遮住了大部分的天空。我们发现在哥伦比亚大学校园的中心地带,使用GPS进行跟踪的效果很好,因为那里比较空旷并且建筑物也相对低矮。另外,GPS每秒钟更新的信息太少,并且也不够精确,根本不能满足将合成图像精确覆盖到真实物体图像上的要求。
扩增实境系统对跟踪技术的准确度,分辨率,更新率以及速度的要求极高。硬件和软件的延时会导致使用者的移动和显示器画面的刷新之间出现延迟。其结果是,使用者在移动或转动头部时,虚拟对象无法出现在适当的位置上。解决这个问题的办法是为AR系统装配一种软件,它能够根据使用者上一时刻的动作推测其下一动作。从长远来看,整合了计算机视频技术的混合跟踪器将能在准确地识别出用户视野中的特定对象后,叠加合适的虚拟图形。
管理现实
在过去的几年中,计算机图形的硬件和软件的性能有了巨大的飞跃。在90年代,由于市场上的设计的图形生成速度无法达到我们的要求,我们的实验室不得不为我们的户外AR系统设计自己的计算机。到了2001年,我们终于换了一台商用笔记本电脑,现有的图形芯片业足够强劲。在我们的实验性移动系统中,笔记本电脑被放在一个背包里。这台笔记本电脑有一个较大的内置显示器,我们把它打开着以便让旁边的人能看到叠加图形的情况。
确保现实逼真的部分原因是其不断的刷新量,即AR所采用的软件必须在使用者和可视物体的位置发生变化时不断更新叠加图像。在此,我用“环境管理”这一术语,来说明众多使用者的显示器上呈现的大量虚拟物体是个不断调整的过程。我们正与美国海军研究实验室及其他一些人合作,开发一种能解决这一问题的软件框架。假如我们要向来访者介绍海军实验室,但只能通过在他们所见到的物体上进行标注的方式进行。这就需要在实验室内选择需标注的东西,确定标注的形式(例如用标签),并且还要算好每个标签的位置和尺寸;实验室已经开发了原型软件,可通过互动方式对虚拟物体的几何属性进行重新设计,以保持虚拟和现实对象在用户视野中的必要关系。例如:这个软件可以不间断地重新计算标签的尺寸和位置,以保证标签总是可见并且只覆盖适当的对象。
值得一提的是,其实有许多非常有用的AR应用几乎不需要什么图形功能:我们不需要渲染和绘制就已经能看到真实世界了(相对而言,虚拟实境系统则需要为用户时时创造一个3D世界)。在为设备维修而设计的AR系统中,一个简单的箭头或对话框就足以提示一个复杂的维护程序中的下一步工作。不管是哪一种情况,要想让移动AR进入实际运用,计算机及电源就需减小体积,以便用户能够方便携带。未来的手持式AR系统会和现在的随身听大小相仿,甚至可能比MP3还小。
途灵机和MARS
在许多AR系统的设计者将注意力集中于开发更好的跟踪器和显示器的时候,我们实验室则一直致力于用户界面和软件架构的设计。90年代初试验了室内AR系统后,我们于1996年决定建造第一套户外AR系统,想看看它怎样帮助一名游客探索陌生的环境。我们把最初的原型机称做“途灵机”(Touring Machine)(以纪念阿兰·图林,他提出的抽象的“图林”(Turing)机定义计算机的计算能力)。因为我们想把受现今技术的束缚减少到最小,我们启用了所能找到的最好的部件建造了一个测试平台,使它的性能尽量和我们所期望的未来更强劲的机器相接近。我们尽量不去考虑诸如成本、尺寸、重量及能源消耗等一些实际问题,因为我们相信未来几年这些问题都会被硬件设计师解决的。我们以牺牲外观上的舒适感来换取性能及软件开发上的便利,制造了好几代使用外框架背包式原型系统。我们平时把它们称为“移动扩增实境系统”(mobile AR systems,MARS)(见下图左侧所示)。
我们现在的系统使用尼龙带和一块附有尼龙搭扣的板子来固定众多的部件:笔记本电脑(配有3D图像处理芯片及IEEE802.11b无线网卡)、跟踪器(一台实时动态GPS接收器、一台GPS纠偏接收器以及混合定位跟踪器的接口盒)、电源(蓄电池和一个稳压电源)以及头戴式显示器和交互设备的接口盒。这个系统重约11千克。GPS接收器和GPS纠偏接收器的天线安装在背包架的顶部,使用者头上佩戴视透显示器及与之相连的定位跟踪传感器和它所接的方向跟踪传感器。操作MARS原型系统上的无线跟踪球或者触摸板,即滚动叠加在用户视野上的选择菜单,就可以实现用户与显示器进行互动。
从刚开始的时候,我们的系统还使用一个手持显示器(内置一支输入笔),作为头戴式视透显示器的补充。这种混合型的用户界面使用户得到了两种交互方式带来的好处:用户即可以从视透显示器上看到3D图形,同时又可以从手持显示器上获得其它信息。
在我的同事John·Pavlik及他在哥伦比亚新闻研究院的学生的合作下,我们一起对MARS原型系统进行了探讨一一如何将“内置的记录片”与周围环境嵌套。这些纪录片叙述了发生在用户当前所在之处的各个历史事件,将3D图形及声音叠加到了用户的所见所闻中。站在哥伦比亚大学的日晷旁,透过头戴式显示器抬头远望,会看到校园里插满了各种虚拟的旗帜,每面小旗都代表了与它所在位置有关的故事的数个片段。当用户选中一面小旗并选择了其中的一个故事片段,这个故事片段便会同时出现在头戴式与手持式显示器上。
我们其中的一部纪录片讲述了1968年哥伦比亚大学学生示威游行的故事。如果用户选择了一面虚拟小旗,头戴式显示器便会显示一组静态照片,与此同时手持式显示器会播放一段视频影像并提供有关参与者及事故的深度报告。在有关哥伦比亚大学校园的前身一~布卢明代尔收容院(Bloomingdale Asylum)的纪录片中,收容院建筑(在很久前已被拆毁)的3D模型会通过视透显示器出现在它们原来的位置上。与此同时,手持显示器会显示一张有关收容院历史的互动时间轴,选择时间菜单,不同时期建筑物的图像会在视透显示器上渐入渐出。
杀手级产品?
随着研究人员对AR系统的跟踪、显示及移动处理等部件的不断改进,未来虚拟信息和人的感官信息的“无缝”连接将不再仅仅是可能,而是会成为日常生活的一部分。一些观察家们认为任何一个潜在的扩增实境的实际应用系统(电脑游戏、设备维护、医学影像等等)都会成为一个“杀手级的产品”一一因为它太具有竞争力了,将会大量吞并其他的技术产品。当AR系统商业化以后,某些特定应用会成为引领这一技术的动力,但是我相信这类系统最终将会变成类似电脑和电话这样普通的产品。我们熟悉的这些产品并不是由于某种单一的应用,而是因为每一天的广泛使用才变得如此普遍的。
电脑会和我们每一天的生活透明地、紧密地结合在一起,这便是计算机专家Mark Weiser在十多年前提出的“无处不在的计算”(ubiquitous computing,UC)的理念(参看本刊1991年l2月号Mark Weiser所著“2l世纪的计算机”一文)。同样,我相信AR系统的叠加信息,将成为我们在工作和娱乐中所期望见到的一部分:成为我们不想迷路时的标签和路标;成为我们不想遗忘时的提示信息;甚至成为一个可爱的卡通人物,在我们极其无聊的时候,会从草丛中蹦出来给我们讲个笑话。当电脑用户的界面无所不在的时候,这个现实与虚幻的“混血儿”将会成为创造未来的新一代艺术家、设计师和故事大王的主要空间。
【马旭东 张蓓蕾/译 李爱珺/校】
请 登录 发表评论