
Google Android XR团队近日宣布推出一套面向开发者与普通用户的全新工具,旨在通过Gemini多模态AI模型,将自然语言创意直接转化为可交互的扩展现实(XR)内容。这一能力已在Gemini网页应用中的Canvas功能中实现原型验证,并标志着Google正加速推动“沉浸式计算”的平民化。
为验证技术可行性,Google团队首先构建了一个沉浸式生物学模拟:通过Gemini建模血细胞间的动态交互,并利用WebGL与Three.js进行可视化渲染,再借助WebXR API将其无缝转换为XR体验。用户可在亚细胞尺度中穿行观察,亲身体验AI所构建的“完整、可交互XR场景”。
基于此探索,Google开发出一套高效原型工具,使用户能以远超传统流程的速度创建3D交互模型。要使用该功能,目前需配备三星Galaxy XR头显,并接入Gemini 3 Pro多模态AI模型。
核心创新在于名为 “XR Blocks” 的Gem(Gem是Gemini的定制化版本,相当于针对特定任务的可复用AI专家)。用户既可直接调用预置的XR Blocks Gem,也可通过下载“XR Blocks ultra-prompt”自行构建专属版本。据Google介绍,该提示词赋予Gemini对现实世界空间与物理规则的高级感知能力,使其生成的AR对象具备更真实的重力、碰撞与响应逻辑。
操作流程极为简洁:在Galaxy XR头显的Chrome浏览器中打开Gemini,新建对话并选择对应XR Gem,进入Canvas界面后即可开始语音或文字输入。更进一步,用户还可让Gemini在XR环境中嵌入Gemini Live——实现边体验、边语音对话、边实时修改,全程无需退出沉浸状态。
左图:一位资深 XR 工程师一天内创建出的体验。右图:根据谷歌的说法,Canvas 在 Gemini 网络应用程序中不到一分钟就创建出的体验。
Google提供了多个直观示例,展示自然语言如何驱动XR内容生成:
“制作一支能在3D空间中画出彩虹的笔”
“生成一群我一碰就破的泡泡”
“折一只纸鸟能在房间飞几秒,然后落在我手上;当我移动手,它又飞走并重复这一过程”
所有生成内容最终以可分享的网页链接形式输出,便于传播与协作。
此举不仅降低了XR内容创作的技术门槛,更预示着一种“所想即所得”的下一代人机交互范式正在成型——未来,构建虚拟世界或许不再需要代码,只需清晰的想象力。
谷歌表示,用户创作完成后,作品会变成可以分享的网络链接。要了解更多关于 Gemini 的信息并浏览 XR Blocks 演示
示例地址:https://xrblocks.github.io/docs/samples

VR52网成立于2015年,平台提供VR头显、AR眼镜、配件外设、厂商、测评、行业资讯、游戏与应用、展会活动等。