• 把远方“搬”到手边:谷歌新论文提出MR代理交互系统

    2025-08-06 23:19:49

    在混合现实(MR)交互的演进路径上,一项来自谷歌与明尼苏达大学研究人员的新探索,正试图重新定义我们如何与远距离物理环境进行精准互动。这项名为RealityProxy的系统,提出将"代理"(Proxies)作为混合现实头显的核心交互概念,旨在解决MR设备长期面临的难题:如何在不移动身体的前提下,精确选择和操作视野中远处的物体?从"伸手可及"到"远在天边":MR交互的断层在当前的MR体验中,用户主要依赖手势、眼动或控制器与近场空间(通常为臂展范围内)的虚拟或物理对象交互。一旦目标位于房间另一端甚至室外,现有技术往往陷入困境--要么依赖激光式远程选择(精度低、操作累),要么需要用户起身移动,打破沉浸状态。RealityProxy的核心思路正是打破这一空间限制:通过生成"近场代理",将远处的物理空间"拉近"到手边进行操作。"数字沙盘":用AI构建可操控的微型世界RealityProxy系统利用头显的摄像头、AI算法、已有的环境地图数据以及用户输入,近乎实时地生成一个"娃娃屋"(dollhouse-scale)大小的物理环境微缩模型,并将其呈现在用户眼前的近处。例如,当你想从书架上取一本远处的书时,系统会生成一个包含书架的微缩场景。你只需在手边的"数字书架"上点击目标书籍,系统便会通过空间定位,在真实环境中高亮该物体,并触发后续操作(如调出其数字副本、记录位置,或联动机械臂取物)。更进一步,RealityProxy还能在背景中实时标注出被代理对象所对应的真实物理物体轮廓,确保用户清楚知道自己正在选择什么,避免误操作。不只是"点选":支持多选、语义分组与空间缩放研究人员强调,该系统的目标是:"在保留'直接操作'自然认知模型的同时,无缝地将交互目标从真实物体转移到其抽象代理。"这意味着,RealityProxy不仅解决"选不到"的问题,更支持更高级的交互:多目标选择:像在RTS游戏中框选单位一样,拖拽选择多个远处物体;语义分组:AI可自动识别并分组相似物体(如"所有椅子"或"电源开关"),提升操作效率;空间缩放(SpatialZooming):将整栋建筑的路径规划以微缩形式呈现在眼前,提前预览动线;复杂场景管理:适用于密集、遮挡或难以接近的物体群,如管理无人机编队--用户可像操作《命令与征服》中的单位一样,通过拖动代理立方体来选择和调度空中的无人机。AI+XR:未来交互的必然路径正如研究者、谷歌科学家Dr.MarGonzalez-Franco在Bluesky上所言:"如果AI要真正赋能人类的日常任务,最有可能的载体就是扩展现实(XR)。但问题在于,如果选择会带来现实后果,我们就需要极高的交互精度。"RealityProxy正是在回应这一挑战--它不是简单的UI创新,而是AI与空间计算深度融合的产物。AI不仅用于环境理解与语义识别,还参与代理生成的实时性与准确性保障。该论文由XiaoanLiu、DifanJia、XianhaoCartonLiu、MarGonzalez-Franco和ChenZhu-Tian共同撰写,已提交至将于9月底在韩国举办的ACMUIST(用户界面软件与技术会议)大会。

  • 共 1 条1/11

    热门资讯