
由人工智能先驱 李飞飞(Fei-Fei Li)于去年创立的初创公司 World Labs,近日推出其首款产品——Marble。这款生成式AI模型能将单张图片、一段文字,甚至短视频,在短短几分钟内转化为可在 WebXR 中直接浏览的体素化3D场景,为VR/AR内容创作带来前所未有的效率革命。
作为2010年代推动计算机视觉爆发的关键人物,李飞飞因创建 ImageNet 数据集 而广为人知——她敏锐地意识到:高质量标注数据的缺失,才是AI进步的最大瓶颈。如今,她将这一理念延伸至三维空间,带领 World Labs 打造所谓 “首类生成式多模态世界模型”(first-in-class generative multimodal world model)。
Marble 的核心技术基于近年主流的 3D Gaussian Splatting(高斯泼溅)技术——通过在三维空间中排布成千上万个半透明彩色“高斯点”,实现实时、任意视角的逼真渲染。但与其他系统相比,Marble 在输入灵活性与生成速度上实现了显著突破。
免费模式:仅需一张图片或一段文本提示,几分钟内即可生成可浏览的3D场景;
付费订阅(20美元/月):支持多图输入、短视频、甚至粗略3D结构,并通过名为 Chisel 的编辑工具进行深度创作。
Chisel 允许用户像使用游戏引擎一样,在场景中放置简单几何体(如立方体、球体),再用自然语言指令(如“把这里变成热带雨林”)将其转化为细节丰富的体素环境。更关键的是,付费用户还能:
对生成场景进行交互式编辑与扩展;
合并多个世界构建复杂空间;
导出为传统3D网格(mesh),用于Unity、Unreal等引擎开发(转换需数小时)。
所有生成内容均可通过 WebXR 在 Quest 3、Apple Vision Pro 等设备的浏览器中直接查看,无需安装专用应用。
在实际测试中(例如将一张 2014年 Steam Dev Days VR会场照片 输入 Marble),生成场景的质量明显低于 Meta 的 Horizon Hyperscape 或 Varjo Teleport,大致介于 Niantic Scaniverse 之上、专业扫描之下。
主要问题在于:
画面中心区域(对应原图内容)细节尚可;
边缘及背面区域则依赖AI“脑补”,出现典型高斯泼溅的模糊、扭曲或结构失真;
若仅用单图输入,相机视野外的内容纯属幻觉,与真实环境可能大相径庭。
📌 因此,若追求高保真重建,仍需提供多角度图像或视频。
尽管存在画质限制,Marble 的真正价值在于 “快速原型 + 语义驱动创作”:
游戏开发者可用它几分钟内搭建关卡雏形;
教育者能将历史照片转为可探索的3D课堂;
社交VR创作者可通过自然语言“描述梦境”,即时生成虚拟聚会空间。
结合 Chisel 的几何可控性与自然语言接口,Marble 正在模糊“内容消费者”与“世界建造者”之间的界限。
官网地址:marble.worldlabs.ai
免费账户生成的场景默认公开;
私有场景、高级编辑与导出功能需订阅 20 美元/月计划。

VR52网成立于2015年,平台提供VR头显、AR眼镜、配件外设、厂商、测评、行业资讯、游戏与应用、展会活动等。