2025年1月21日,WorldLabs宣布推出一款名为WorldAPI的创新接口,允许用户通过其先进的多模态世界模型"Marble"生成并构建可探索的3D虚拟环境。该平台自2025年11月公开以来,因其能够从文本、图像、视频及全景照片等多种输入源生成高度逼真的3D世界而广受赞誉。Marble的核心能力:从素材到虚拟空间的无缝转换"Marble"具备以下关键特性:支持多种输入格式:无论是实景拍摄的照片、视频还是纯文本描述,都能转化为可供用户自由漫游的虚拟空间;智能解析与整合:自动分析输入素材的布局和结构,并将生成的数据无缝集成至网页浏览器或专业制作工具中;高度编辑性:用户可以轻松调整材质质感、删除不必要物体、修正区域边界,甚至为场景增添细节或连接多个空间。此外,WorldAPI还支持以GaussianSplatting(高斯泼溅)和Mesh两种格式输出3D模型,确保与主流游戏引擎及其他标准制作工具的兼容性。应用广泛:从游戏到建筑,再到机器人模拟WorldAPI不仅限于娱乐领域,其应用场景覆盖了多个行业:游戏开发:通过摄像头操作实时生成动态视频,模拟火焰、水流等复杂效果;建筑设计:助力设计师将草图快速转化为三维可视化成果,加速设计流程;机器人仿真:已被NVIDIA等知名公司采用,在机器人训练与测试环境中发挥重要作用;沉浸式体验:如Escape.ai仅凭20张图片即可创建出引人入胜的虚拟环境。强大的技术背景与资金支持WorldLabs由著名AI研究者李飞飞博士创立,并已获得来自顶尖投资机构的总计2.3亿美元融资。这一雄厚的资金基础为其技术研发提供了坚实保障,推动着WorldAPI不断拓展其在各领域的应用潜力。项目地址:https://www.worldlabs.ai/blog/announcing-the-world-api
从一次童年误操作说起:为什么"安全卸载"如此重要?在去年SteamFrame发布前夕,一位科技作者在Valve总部体验设备时,回忆起自己1995年左右的一次"系统灾难":年仅十岁,他将父亲带回家的办公电脑中的游戏文件直接拖入回收站清空,结果导致整台机器只能以安全模式启动。面对父亲即将下班的倒计时,恐惧与泪水交织--这成为他对"封闭系统脆弱性"的第一课。三十年后,当这位作者试图向自己的青少年子女解释Mac与SteamDeck之间的差异时,真正难以传达的并非技术细节,而是更深层的理念:为什么"开放"和"离线计算"在今天依然至关重要?Valve工程师对此给出了清晰回应:SteamDeck提供两种使用层级。用户若希望修改系统文件,可开启读写模式;但对大多数只想安装应用的普通用户而言,Flatpak格式提供了类似AndroidAPK的沙盒化体验--应用自包含、运行隔离、卸载后系统状态完全复原,确保不会因误操作导致系统崩溃。这种设计,正是为了规避早期Windows时代常见的"删游戏变砖机"风险。Flatpak之于Linux桌面,正如APK之于Android:两者虽面向不同平台,但核心理念一致--构建一个既易用又安全的应用分发机制。开放的Linux桌面:SteamFrame不只是游戏机如今,许多青少年接触的第一台"计算机"往往是iPhone、iPad或学校配发的Chromebook。这些设备高度依赖在线账户,由家长或教育机构严格管控,功能边界清晰,探索空间有限。相比之下,SteamFrame提供了一种截然不同的入口:戴上XR头显后,无需登录任何账户,即可直接进入基于Linux的完整桌面环境。用户可通过语音浏览器自由访问开放网络,安装第三方软件,甚至进行系统级调试--整个过程不依赖云端验证或平台许可。据体验者反馈,其预期在SteamFrame上首日即可通过Flathub(常被称作"Linux应用商店")安装VLC、Discord、RetroArch、Spotify等常用工具。这种开箱即用的扩展能力,远超其在AndroidXR设备上数日的折腾成果,甚至优于多年使用MetaQuest或AppleVisionPro的累积体验。值得注意的是,这种自由并非无代价--用户完全可能因过度修改导致系统异常,需手动恢复出厂设置。但恰恰是这种"可破坏、可重建"的特性,还原了1990年代PC黄金时代的探索精神:设备既是家电,也是游乐场。2026年1月Flathub上的热门应用。Valve的长期主义:十年开源投入,只为让游戏更好玩Valve对开放生态的坚持并非临时起意。过去十余年,公司持续资助全球匿名开发者推进一系列关键开源项目,逐步构建起SteamOS的技术底座。据Valve代表介绍,当前SteamFrame所呈现的体验--从操作系统内核(基于ArchLinux)、桌面环境(KDEPlasma)、图形驱动到Proton兼容层--几乎全部建立在开源基础之上。其中,Plasma团队甚至曾获得Valve直接资金支持,专为游戏场景优化交互与性能。更关键的是,Valve始终相信:平台的核心价值不应由单一公司定义,而应由社区横向共创。"如果所有优质体验都必须经过平台审核,多样性将被扼杀。"一位工程师指出,"用户之间自发分享模组、配置、工具链--这种生态只有在开放系统中才能繁荣。"因此,Valve刻意避免扮演"体验守门人",转而提供基础设施,让社区自主演进。这一理念深植于公司基因。《反恐精英》《DOTA》等现象级作品最初均源自玩家模组;免费游戏、MOBA等品类亦诞生于PC开放生态。相较之下,封闭平台往往将创新"冻结"在特定形态,而PC(以及如今的SteamVR)则因开放性持续迭代。"我们不是在发明新范式,"Valve方面强调,"只是将PC数十年来的开放精神,自然延伸至VR领域。"
只需输入一段文字或一张图片,就能即时生成一个完整、连贯且可自由漫游的3D虚拟空间--这正是AI初创公司SpAItialAI最新推出的生成式模型Echo所实现的能力。该技术不仅大幅降低3D内容创作门槛,更重新定义了人与虚拟空间的交互方式。真正的"空间生成",而非像素拼接Echo背后的核心技术是一种被称为空间基底模型(SpatialFoundationModel,SFM)的新型AI架构。与传统生成模型聚焦于像素不同,SFM直接以物理空间本身为生成对象。它能基于现实世界的物理规律,在米级尺度上预测完整的3D场景结构,确保新视角、深度图及交互结果均源自同一个一致的底层世界模型。这意味着,无论用户从哪个角度观察或如何操作环境,所见内容都具备几何与语义上的一致性,避免了传统方法常见的视角断裂或逻辑矛盾问题。实时交互+低门槛访问,人人皆可创作3DEcho生成的3D世界支持实时相机控制与即时渲染,即使在普通笔记本电脑或低性能设备上,也能通过网页浏览器流畅运行,无需高端显卡或专业VR设备。这种轻量化设计使其覆盖人群从专业设计师延伸至普通消费者。更关键的是,Echo并非"一次性输出"。用户可在生成后对3D场景进行深度编辑:更换材质、增删物体、整体风格重绘等操作均可实现,且系统会自动维持场景的三维一致性,确保修改后的世界依然逻辑自洽、视觉连贯。应用场景广阔,从游戏到机器人仿真凭借上述特性,Echo为多个领域打开了新的工作流可能:数字孪生:快速构建真实环境的可交互复刻;游戏开发:一键生成基础关卡并支持后续迭代;3D设计与建筑可视化:从草图或描述直接进入空间体验;机器人训练:在符合物理规律的合成环境中进行仿真学习。目前,SpAItialAI已在其官网展示多个由Echo生成的示例世界,并开放封闭测试注册通道。用户仅需提供一段文本或单张图像,即可尝试构建属于自己的可编辑3D宇宙。体验申请:https://www.spaitial.ai/join-waitlist
Apple机器学习研究团队近日公开了一项名为SHARP(Single-imageHolisticAndRealisticPhotorealism)的全新3D合成技术。该方法仅需一张普通照片,即可在不到一秒的时间内生成具备真实感的3D场景,并支持实时渲染--为单图像3D重建领域树立了新的性能与质量标杆。秒级推理+实时渲染,效率提升千倍SHARP的核心技术在于,通过一个端到端的神经网络,直接从单张输入图像中预测出3D高斯表示(3DGaussianrepresentation)的完整参数。整个过程仅需一次前向推理,在标准GPU上耗时不足1秒。相较于此前最先进的方法,SHARP将3D生成所需时间缩短至千分之一。更关键的是,所生成的3D模型可在消费级GPU上实现每秒超100帧的渲染速度,同时输出高分辨率、照片级真实的邻近视角图像。基于物理尺度,实现精准视角控制不同于多数仅关注视觉效果的3D重建方案,SHARP生成的3D表示建立在以米为单位的绝对尺度之上。这意味着用户在虚拟环境中移动视角时,其位移量能与现实世界中的相机运动精确对应,极大提升了交互的真实感与可用性。研究团队在包括Unsplash、ETH3D和Middlebury在内的多个公开数据集上进行了广泛测试,验证了SHARP在不同场景、光照和内容类型下的高泛化能力与鲁棒性。画质指标全面领先,细节还原能力突出在客观画质评估方面,SHARP表现同样亮眼:在LPIPS感知相似度指标上,相较当前最优模型提升25%–34%;在DISTS图像失真度量上,误差降低21%–43%。更重要的是,该方法能在保持几何结构完整性的同时,精准还原输入图像中的细微纹理与锐利边缘,使合成结果在视觉上几乎难以与原始照片区分。目前,相关论文已在arXiv公开,项目代码也已开源至GitHub。Apple研究团队表示,SHARP有望成为单图像高质量3D生成的新标准,为AR、内容创作、机器人视觉等领域带来深远影响。Apple Github:https://apple.github.io/ml-sharp/
随着虚拟现实、增强现实及混合现实技术的融合趋势日益明显,XR生态系统正迎来新一轮竞争高潮。一边是Meta推出的SpatialSDK/HorizonOS,旨在简化Quest设备上的开发流程;另一边则是由Google联合三星和高通共同打造的AndroidXROS,力图成为开放标准的空间计算操作系统。两者虽都致力于推动XR开发的普及化,但其背后的产品理念却截然不同。MetaSpatialSDK/HorizonOS:简化引擎依赖,加速原生开发Meta的SpatialSDK允许开发者使用Android原生工具(如Kotlin、AndroidStudio及相关库)直接为Quest系列设备构建XR应用,无需依赖重型游戏引擎。核心功能:空间锚点:在物理世界中固定虚拟对象;共享空间:支持多人协作与社交互动;透视相机:将现实环境无缝融入虚拟体验;HorizonOSUI组件:提供统一的用户界面设计元素;MR实用套件:辅助开发MR场景下的交互逻辑。手势识别:支持捏合、滑动、点击等基础手势,以及完整的手部追踪能力。AI功能:上下文感知UI:基于环境理解自动调整界面布局;AI驱动的空间认知:提升场景理解和物体识别精度;自适应MR混合:根据不同光照条件动态优化虚实叠加效果。最佳适用人群:适用于已深度嵌入Meta生态圈的开发者,特别是那些希望摆脱传统游戏引擎束缚,探索轻量化XR工作流的专业人士。开发者资源链接:MetaSpatialSDK示例代码(GitHub)MetaHorizonOS开发者资源AndroidXROS:跨平台兼容,拥抱开放生态由Google主导、三星与高通共同参与的AndroidXROS是三星GalaxyXR头显及ProjectAuraAI眼镜背后的动力源泉,定位为一个面向多终端的开放式空间计算平台。核心功能:跨平台XR开发:确保应用能在不同硬件上流畅运行;SnapdragonSpaces集成:利用高通芯片组的强大算力;沉浸式生产力与娱乐:覆盖从办公到游戏的全方位应用场景。手势识别:提供捏合、抓取、滑动等复杂手势支持,并兼容触控板输入及手柄操作。AI功能:AI眼镜(ProjectAura):集成语音+手势的多模态输入方式;AI驱动的空间计算:通过智能算法优化用户体验。最佳适用人群:适合追求开放架构、企业级XR解决方案及AI增强体验的开发者群体。开发者资源链接:AndroidXR官方开发者页面AndroidXRSDK开发者预览博客FramesixtyAndroidXR开发指南这场XR平台之争,不仅是技术层面的竞争,更是对未来人机交互模式话语权的争夺。无论是Meta的封闭生态还是Google的开放联盟,都将深刻影响下一代空间计算产品的走向与发展路径。对于开发者而言,选择哪条道路,或许意味着不同的创新机遇与市场前景。特征区域MetaSpatialSDK/HorizonOSAndroidXR操作系统核心能力空间锚点、共享空间、透视、地平线用户界面跨平台XR、骁龙空间、生产力、游戏手势捏合、滑动、点击、全手追踪捏合、抓取、滑动、触控板、混合输入人工智能功能情境感知用户界面、AI空间锚点、混合现实实用工具包人工智能眼镜、多模态输入、人工智能驱动的空间计算生态系统契合度MetaQuest设备,HorizonOS三星GalaxyXR、ProjectAura、开放式 AndroidXR
STYLY近日宣布,面向创意机构与制作公司,正式启动一项基于Unity的开源项目,旨在支持Location-BasedEntertainment(LBE,即"基于位置的沉浸式娱乐")内容的开发。该项目的核心目标,是通过降低XR沉浸式内容开发中的技术门槛,让创作者能将更多精力聚焦于创意本身,从而推动高质量LBE体验生态的形成。为此,STYLY将提供一套专为多设备同步场景设计的通信功能模块。在典型的LBE场景中,往往需要数十台头显设备同时运行并保持高度同步。新推出的解决方案可支持最多50台XR设备轻量、高速地协同工作,并兼容主流厂商的头戴式显示器。无论是集成到现有项目,还是用于全新内容开发,流程都更为简便高效。开源授权,商用无忧此次发布的SDK套件采用ApacheLicense2.0或MIT许可证,无论企业或个人、商用或非商用用途,均可免费使用。STYLY还计划面向商场、主题乐园等商业场所的LBE运营方,推出基于该SDK优化的专用运营管理软件服务,进一步完善从开发到落地的全链路支持。值得注意的是,该开源项目与STYLY现有的无代码XR创作与分发平台互不兼容--所提供的SDK无法用于向当前上线的STYLY应用发布内容。STYLY此前已成功推出如VR体验《THEMOONCRUISE》(模拟未来太空旅行)等代表性LBE项目。依托这些一线实践积累,公司希望借由此次开源举措,加速XR技术在实体娱乐场景中的普及,并为下一代沉浸式娱乐形态提供基础设施支持。开源仓库:https://github.com/styly-dev/
本周,腾讯正式面向全球推出其Hunyuan3D创作引擎--一款由人工智能驱动的3D内容生成平台,旨在为创作者与企业大幅简化高质量3D资产的生产流程。该平台支持用户通过文本描述、图像或手绘草图直接生成3D模型,相较传统建模方式显著缩短制作周期。腾讯表示,此举意在降低3D内容创作门槛,推动游戏、电商、影视特效等多个行业的数字内容生产效率升级。API开放接入,赋能全球企业工作流目前,Hunyuan3DModelAPI已通过腾讯云向全球企业开放。开发者可将这一3D生成能力无缝集成至自身业务系统中。官方指出,该API适用于游戏开发、电子商务商品展示、电影特效、广告创意、社交媒体内容生成以及3D打印等多个应用场景。为鼓励早期采用,普通用户每日可享受20次免费生成额度;而通过腾讯云接入的企业用户,则将获得200点免费积分用于3D资产生成。开源社区反响热烈,版本持续迭代自2024年11月首次开源以来,Hunyuan3D模型已在AI社区平台HuggingFace上累计获得超300万次下载。该系列已历经多次迭代,最新发布的Hunyuan3D3.0聚焦于高保真物体资产的生成质量。此外,腾讯还推出了专用子模型,例如Hunyuan3DWorld,专为构建大规模交互式虚拟环境设计,适用于游戏、VR及数字内容生态。据腾讯透露,目前已有超过150家企业通过腾讯云接入Hunyuan3D模型,合作方包括Unity中国、BambuLab,以及国内最大的AI内容创作平台Liblib。
曾为WebAR开发树立标杆的平台8thWall日前宣布将逐步终止服务。该平台自2018年上线以来,凭借其基于浏览器的交互式XR应用开发能力,支持在移动端、桌面端及XR设备上无缝部署,成为行业广泛应用的工具。8thWall最初由同名初创公司于2016年创立,并于2022年被知名AR游戏公司Niantic(现更名为NianticSpatial)收购。即便在并购之后,平台仍持续更新,并与Niantic推出的LightshipVPS等空间定位技术深度集成,维持了较强的技术生命力。服务关停时间表明确,用户需提前规划迁移根据官方公告,8thWall的服务将分阶段关闭。2026年2月28日起,平台将停止所有访问权限,届时用户将无法创建新账户、登录系统,也无法新建或编辑项目,更不能导出资产和项目数据。不过,在2026年2月28日至2027年2月28日这一整年间,已发布或托管的项目仍可正常访问和运行,为开发者保留了一年的缓冲期以安排替代方案。最终,2027年2月28日之后,平台的托管服务将彻底终止,所有剩余项目数据将依据数据保留政策予以删除。官方表示,将在此期间提供必要的数据导出窗口,建议用户尽早备份关键内容。开源化尝试:为生态留下火种值得注意的是,8thWall团队正积极推进平台核心组件的开源工作,旨在通过开放代码的方式,保障开发者社区在服务终止后仍能延续部分功能。此举也被视为对WebAR生态的一种责任性收尾,力求实现透明、有序的技术过渡。
WorldLabs与HTC联合发布了面向虚拟制片平台VIVEMars的全新AI工具--AI世界构建器Marble。该工具主打"极简创作",用户仅需输入一张图片或一段简短文字,即可在数分钟内自动生成可用于实拍合成的高保真虚拟场景,大幅降低虚拟制片的技术门槛。空间智能驱动:从文本/图像到3D场景的一键生成WorldLabs是一家专注于"空间智能"(SpatialIntelligence)的初创企业,致力于构建能理解并生成三维世界的基座模型。其首款产品Marble正是这一理念的落地成果:通过名为"AIGaussianSplatting"的生成技术,系统可直接从单张图像或自然语言描述中重建出细节丰富的3D虚拟环境,无需传统建模、UV展开或复杂光照设置等繁琐流程。相比依赖专业3D软件或游戏引擎的工作流,Marble将整个场景构建过程压缩至几分钟内完成,且输出格式轻量,便于实时渲染调用。无缝接入VIVEMarsNova,实现即插即用的虚拟制片HTC的VIVEMars是一套基于VIVEVR硬件生态打造的高性价比虚拟制片系统,利用现有VIVE追踪设备实现精准相机定位。新推出的配套软件VIVEMarsNova已原生支持Marble输出的轻量化PLY格式数据,并与VIVEMarsCamTrack相机追踪模块深度集成。用户只需将Marble生成的场景导入Nova,连接普通摄像机,即可在绿幕前实时合成实拍画面与AI生成的虚拟背景。整个流程无需UnrealEngine、编程经验或高级3D工具知识,真正实现"所想即所得"的影视级合成效果。这一整合方案显著缩短了从创意到成片的制作链路,使独立创作者、小型工作室甚至非技术背景的内容生产者也能快速拓展视觉表达边界,在短视频、广告、直播乃至教育内容等领域释放新的创作潜力。
作为一款广受欢迎的开源游戏引擎,Godot近年来持续强化其在XR领域的支持能力。早在数年前,Godot就已集成基础的OpenXR支持,使开发者能够轻松将应用部署到多种XR头显设备上。如今,随着最新版本更新,Godot进一步拓展了OpenXR功能,意图吸引更多专注于VR与AR开发的团队。OpenXR是由KhronosGroup主导制定的一项开放、免版税的标准,旨在为VR/AR应用开发提供统一接口。目前主流XR平台普遍支持该标准--唯独苹果例外,其VisionPro采用自研API。渲染模型扩展落地,沉浸感再升级在近期发布的Godot4.5版本中,引擎正式引入了OpenXR渲染模型扩展。这一功能使得系统能够准确识别并渲染特定平台的硬件模型,例如手柄外观。对于XR应用而言,这种细节对营造真实沉浸感至关重要。据Godot首席XR维护者BastiaanOlij在博客中透露,更大的动作已在路上--即将随Godot4.6到来。在当前的开发者预览版(Godot4.6dev1)中,引擎已初步支持OpenXRSpatialEntities,涵盖空间锚点、平面检测和标记追踪等MR核心工具。这意味着开发者可以构建具备空间感知能力的持久化MR体验。性能与兼容性双提升Godot4.6同时新增对OpenXR1.1的支持,其中包含用于提升重投影质量的帧合成技术。此外,引擎还在推进QuadView渲染优化,以在用户注视焦点区域实现更高画质。另一项重大改进面向Android平台:开发者现在可打包一个通用APK,即可兼容所有支持OpenXR的XR设备,大幅简化分发流程。展望未来,Godot团队计划推进身体追踪标准化、扩展空间实体功能、实现多应用协同支持,并优化通用控制器的工作流。Olij特别指出,Khronos对Godot的资金与技术支持,确保了OpenXR等开放标准能够直接吸纳一线开发者的反馈,持续演进。
Meta最新发布的SAM3DObjects模型为从现实世界中快速生成高质量3D资产设定了新的标准。这项技术使得仅需一张图片,即可在数秒内将现实中的物体转化为虚拟世界中的3D对象,极大地简化了3D内容创作的流程。传统方法vsAI加速长久以来,利用摄影测量法(photogrammetry)通过拍摄数十张不同角度的照片来生成3D模型是主流做法。例如,EpicGames的RealityScan需要约15到45分钟的云端处理时间,而苹果公司则为其iPhonePro系列提供了大约需要5分钟的设备端物体捕捉API(ObjectCaptureAPI)。然而,随着AI技术的进步,近年来出现了可以从单张图像中迅速生成3D资产的先进模型。尽管这些模型的质量起初不如传统的摄影测量法,但随着每一次新模型的发布,其质量也在稳步提升,反映了AI领域整体上的快速发展。SAM3DObjects:下一代3D生成模型最近,Meta发布了SAM3DObjects,这是目前最先进的从单一图像生成3D资产的模型。用户可以通过访问Meta的AIDemos页面,在网页浏览器中免费体验这一功能。只需上传一张图片,并选择想要转换成3D模型的对象,几秒钟后就能看到该对象的3D视图,并可以使用鼠标或手指进行旋转查看。值得注意的是,Meta的演示网站并不完全适配移动屏幕,因此推荐使用PC、笔记本电脑、平板电脑或VR头显进行体验。此外,SAM3DObjects目前仅适用于无生命物体,不支持人物或动物的3D建模。虽然在线演示不允许下载生成的3D模型,但SAM3DObjects是开源项目,可在GitHub和HuggingFace上获取。这意味着开发者可以在提供GPU支持的云计算平台上托管此模型,进而实现类似于EchoTheReality演示的应用,但具有更高品质的输出效果--即直接从现实中"拉取"物体进入VR环境。应用前景与未来展望社交VR平台可以借此让用户在几秒钟内展示他们房间里的物品,或者用自己制作的真实物品装饰虚拟家园。虽然Meta尚未宣布计划将此功能添加到HorizonWorlds中,但这似乎是一个自然的发展方向,能够很好地补充Meta刚刚推出的Hyperscape世界。
在AI生成3D内容的竞赛中,Meta最新推出的WorldGen系统再次将行业门槛推高--它能仅凭一段文字提示,自动生成几何一致、视觉丰富、可交互导航的三角网格。然而,Meta却坦言:这项技术尚未准备好集成到其社交VR平台HorizonWorlds中。从AssetGen到WorldGen:Meta的AI造世之路早在2025年5月,Meta就预告将在HorizonWorlds创作工具中引入"AI自动生成完整3D世界"的能力,并发布了相关模型AssetGen2.0。6月,该功能被正式命名为"EnvironmentGeneration"(环境生成),并展示了示例场景,称将"很快上线"。结果,8月上线的EnvironmentGeneration仅能生成一种特定风格的岛屿,与"通用世界生成"的愿景相去甚远。如今,Meta在一篇技术论文中正式披露了其更强大的下一代系统--WorldGen,这才是真正面向"任意文本生成任意世界"的终极方案。WorldGen是什么?不是GaussianSplat,而是真·游戏级3D与近期热门的WorldLabs的Marble(基于GaussianSplatting)或GoogleDeepMind的Genie3(生成交互式视频流)不同,WorldGen输出的是标准的三角网格(trimesh):兼容Unity、Unreal等传统游戏引擎;包含完整的导航网格(navmesh),支持角色碰撞检测与NPC自主导航;场景由真实3D资产构成,而非视觉近似体。Meta将其描述为:"一个端到端的先进系统,通过单一文本提示生成可交互、可导航的3D世界,服务于游戏、仿真与沉浸式社交环境。"四步生成流程:从文本到可玩世界据Meta披露,WorldGen的生成流程分为四大阶段:(1)规划阶段(Planning)程序化生成基础布局(blockout)提取导航网格(navmesh)生成参考图像指导后续重建(2)重建阶段(Reconstruction)图像到3D基础模型生成基于navmesh构建完整场景结构初步纹理生成(3)分解阶段(Decomposition)使用加速版AutoPartGen提取场景部件(如门、窗、家具)对部件数据进行清洗与结构化(4)精修阶段(Refinement)图像增强网格细节优化高质量纹理贴图生成整个过程融合了程序化生成、扩散模型、场景理解与几何优化,形成一条完整的AI世界生产管线。为何还不上线?两大瓶颈待解尽管技术惊艳,Meta明确表示WorldGen暂不会集成到当前的HorizonWorldsDesktopEditor,也不会作为即将推出的HorizonStudio的首发功能。原因有二:空间尺寸受限:目前仅能生成50×50米的区域,对于开放世界而言太小;生成速度慢:从文本到完整世界仍需较长时间,无法满足创作者"秒级迭代"需求。Meta正在全力优化这两点,目标是在2026年推出大幅升级版,以兑现其在Connect2025大会上展示的HorizonStudio愿景--一个拥有AI助手的全能创作平台,可即时生成:完整世界定制化资产具备行为逻辑的NPC特定玩法机制⚠️但当时演示的内容,可能更多是"概念原型",而非已部署的技术。HorizonWorlds创作现状:DesktopEditor已支持部分AI功能目前,创作者可通过HorizonWorldsDesktopEditor进行flatscreen开发:导入3D模型、贴图、音频;使用TypeScript编写游戏逻辑;在美国、英国、加拿大、欧盟、澳大利亚、新西兰等地区,还可调用AI生成:3D网格资产纹理与天空盒音效与环境音TypeScript代码片段但完整世界生成,仍需等待WorldGen成熟。展望随着AI3D生成技术指数级演进,Meta很可能在2026年实现其"人人都是世界建筑师"的承诺。届时,HorizonStudio或将成为首个真正意义上的AI驱动元宇宙创作平台--你只需说:"创建一个赛博朋克夜市,有霓虹招牌、雨天街道、可互动的机器人摊贩",系统便在几分钟内交付一个可多人游玩的完整VR世界。而WorldGen,正是通往这一未来的基石。
由人工智能先驱李飞飞(Fei-FeiLi)于去年创立的初创公司WorldLabs,近日推出其首款产品--Marble。这款生成式AI模型能将单张图片、一段文字,甚至短视频,在短短几分钟内转化为可在WebXR中直接浏览的体素化3D场景,为VR/AR内容创作带来前所未有的效率革命。从ImageNet到"世界模型":李飞飞的新征程作为2010年代推动计算机视觉爆发的关键人物,李飞飞因创建ImageNet数据集而广为人知--她敏锐地意识到:高质量标注数据的缺失,才是AI进步的最大瓶颈。如今,她将这一理念延伸至三维空间,带领WorldLabs打造所谓"首类生成式多模态世界模型"(first-in-classgenerativemultimodalworldmodel)。Marble的核心技术基于近年主流的3DGaussianSplatting(高斯泼溅)技术--通过在三维空间中排布成千上万个半透明彩色"高斯点",实现实时、任意视角的逼真渲染。但与其他系统相比,Marble在输入灵活性与生成速度上实现了显著突破。单图秒变3D?Marble的能力边界免费模式:仅需一张图片或一段文本提示,几分钟内即可生成可浏览的3D场景;付费订阅(20美元/月):支持多图输入、短视频、甚至粗略3D结构,并通过名为Chisel的编辑工具进行深度创作。Chisel允许用户像使用游戏引擎一样,在场景中放置简单几何体(如立方体、球体),再用自然语言指令(如"把这里变成热带雨林")将其转化为细节丰富的体素环境。更关键的是,付费用户还能:对生成场景进行交互式编辑与扩展;合并多个世界构建复杂空间;导出为传统3D网格(mesh),用于Unity、Unreal等引擎开发(转换需数小时)。所有生成内容均可通过WebXR在Quest3、AppleVisionPro等设备的浏览器中直接查看,无需安装专用应用。实测体验:快,但仍有局限在实际测试中(例如将一张2014年SteamDevDaysVR会场照片输入Marble),生成场景的质量明显低于Meta的HorizonHyperscape或VarjoTeleport,大致介于NianticScaniverse之上、专业扫描之下。主要问题在于:画面中心区域(对应原图内容)细节尚可;边缘及背面区域则依赖AI"脑补",出现典型高斯泼溅的模糊、扭曲或结构失真;若仅用单图输入,相机视野外的内容纯属幻觉,与真实环境可能大相径庭。📌因此,若追求高保真重建,仍需提供多角度图像或视频。为何Marble依然值得期待?尽管存在画质限制,Marble的真正价值在于"快速原型+语义驱动创作":游戏开发者可用它几分钟内搭建关卡雏形;教育者能将历史照片转为可探索的3D课堂;社交VR创作者可通过自然语言"描述梦境",即时生成虚拟聚会空间。结合Chisel的几何可控性与自然语言接口,Marble正在模糊"内容消费者"与"世界建造者"之间的界限。使用须知官网地址:marble.worldlabs.ai免费账户生成的场景默认公开;私有场景、高级编辑与导出功能需订阅20美元/月计划。
在空间计算浪潮席卷全球之际,Meta正式推出SegmentAnythingModel3D(SAM3D),将传统的2D图像理解能力推向全新维度。这项突破性技术仅需单张普通照片,即可精准重建出完整的3D物体、场景甚至人体模型,让每一帧手机快照或网络图片瞬间转化为可交互、可部署的沉浸式数字资产。从平面到空间:打破屏幕的牢笼过去数十年,我们的数字生活被禁锢在二维屏幕上--点击、滑动、观看,却始终与物理世界隔绝。SAM3D正在瓦解这一边界:一张椅子的照片不再只是静态图像,而是一个可360°旋转、自由缩放、导入虚拟房间的真实3D对象;一个人物快照也能变成可用于社交Avatar或全息通信的立体化身。Meta已率先将该技术落地于FacebookMarketplace的"ViewinRoom"功能。用户不再需要凭空想象沙发尺寸是否合适,而是直接将其3D模型"放置"在自家客厅中,从任意角度查看搭配效果--电商体验由此迈入空间化时代。直面真实世界的复杂性传统3D重建常因遮挡、杂乱背景或多视角缺失而失败。SAM3D却能从容应对这些现实挑战:即使物体部分被遮挡,系统仍可推断完整结构;在凌乱环境中精准分离目标主体;支持非正面、低光照等"不完美"输入。其背后依托超大规模预训练模型与人在回路(human-in-the-loop)反馈机制,在保证高精度的同时实现接近实时的推理速度,为消费级应用和创意工作流提供坚实支撑。赋能XR、机器人与下一代交互SAM3D的意义远超图像处理本身,它正在催生多个领域的范式变革:AR/VR内容创作民主化:无需建模技能,拍照即得3D资产;虚拟零售革命:商品数字化成本骤降,沉浸式购物成为标配;空间通信新形态:未来视频通话或将传送3D化身而非2D画面;机器人环境理解:帮助机械臂更准确识别与操作现实物体。开源驱动生态,加速3D普及Meta延续其开放策略,同步开源了SAM3D的模型权重、评估基准与开发者工具包,并上线了直观易用的在线Playground。全球开发者、设计师、教育者均可立即上手实验,共同推动从"2D屏幕时代"向"动态3D世界"的主流迁移。SAM3D如何改变你的数字生活?一键生成3D:手机照片秒变精细3D模型零门槛创作:普通人也能制作XR内容重塑电商体验:家具、服饰"试穿试摆"更真实赋能硬件生态:为XR眼镜、MR设备提供实时3D引擎激发全球创新:通过开源持续推动技术演进在Playground中测试Sam3Dhttps://aidemos.meta.com/segment-anything/gallery
一款名为PimaxMagic4All的免费工具现已推出,专为配备现代NvidiaGPU的WindowsPC设计,能够为众多SteamVR游戏添加眼动追踪注视渲染(Eye-TrackedFoveatedRendering,ETFR)。该工具重现了Pimax在其PimaxPlay软件中提供的功能,因此如果你已经拥有Pimax头显,则无需使用此工具。支持设备广泛,涵盖主流高端VR头显PimaxMagic4All兼容任何通过低级公共API公开眼动追踪数据的SteamVR兼容头显,或通过第三方软件实现此功能的设备,包括但不限于:MetaQuestPro(需借助SteamLink或VirtualDesktop)PlayStationVR2(需PSVR2Toolkit)SamsungGalaxyXR(需VirtualDesktop)PlayForDreamMR(需VirtualDesktop)VarjoAero什么是注视渲染?固定注视渲染(FFR):图像中心区域以更高分辨率渲染,而周边区域则降低分辨率。眼动追踪注视渲染(ETFR):根据眼动追踪传感器确定当前视线焦点,并仅对该区域进行高分辨率渲染。这两种技术均能显著提升VR性能表现,既可用于提高高负载场景下的帧率流畅度,也可在已达到目标帧率的情况下进一步提升最高分辨率。与FFR相比,ETFR理论上不会产生明显的边缘像素化现象,前提是眼动追踪系统的延迟足够低。开发者MatthieuBucchianeri表示,该工具"可能"也适用于Valve的SteamFrame,尤其是在从安装NvidiaGPU的WindowsPC串流时。此外,理论上经过适当开发调整后,它也可能支持HTCViveProEye和ViveFocusVision。开发者背景及工具特点Bucchianeri是一位经验丰富的开发者,曾参与过PS4、初代PlayStationVR、SpaceXFalcon9和Dragon项目以及微软HoloLens和WindowsMR的研发工作。目前他在微软Xbox团队贡献于OpenXR,并利用业余时间开发了多个开源项目,如OpenXRToolkit、VDXR(VirtualDesktop的OpenXR运行时)以及最新推出的Oasis--这一原生SteamVR驱动程序成功复活了WindowsMR头显。PimaxMagic4All提供了一个简洁的图形界面,内置三种注视渲染模式:最大、平衡和最小,用户可根据需求选择侧重性能提升、视觉效果无差异或两者间的平衡。使用条件及兼容性说明该工具可注入任何使用DirectX11图形API和OpenVRAPI的游戏,但不适用于含有反作弊系统的游戏,因为这类系统会阻止代码注入。同时,必须配备NvidiaGTX16系列或RTX显卡才能正常运行。在GitHub项目的Wiki页面上列出了部分支持的游戏列表,包括《Half-Life:Alyx》、《SkyrimVR》、《Fallout4VR》等知名作品,但这只是理论上应支持的庞大游戏库的一小部分。值得注意的是,《MicrosoftFlightSimulator2024》、《DCS》和《iRacing》三款游戏已原生支持OpenXR眼动追踪注视渲染,因此无需额外安装PimaxMagic4All。PimaxMagic4All现已上线GitHub,提供了基于Pimax核心代码的源码以及编译版本供用户下载。
在2025年大阪・关西世博会备受瞩目的标志性展馆「null²」中,一项名为「MirroredBody®(镜像身体)」的体验让参观者得以在数字世界中与自己的虚拟分身相遇。支撑这一沉浸式体验的核心技术--Gaussian-VRM,近日已正式在GitHub上开源,高保真3D虚拟化身的生成门槛正被大幅拉低。这项技术由筑波大学博士课程的近藤生也主导开发,其核心亮点在于:仅需智能手机拍摄,即可在极短时间内生成高质量3D虚拟形象。相关成果已发表于论文《InstantSkinnedGaussianAvatarsforWeb,MobileandVRApplications》。与传统依赖专业设备或复杂流程的方案不同,Gaussian-VRM采用当前热门的高斯溅射(GaussianSplatting)技术,在保证画质的同时实现了惊人的处理速度。30秒生成,全流程浏览器内完成用户只需使用支持的智能手机应用(如Scaniverse)对全身进行扫描,系统约30秒内即可完成3D建模。整个流程--从扫描、生成到动画展示--均可在浏览器环境中完成,无需安装任何专业软件。这一"端到端"的轻量化设计,极大降低了普通用户和开发者的使用门槛。为实现高效的跨平台应用,团队开发并采用了基于通用虚拟形象格式VRM的专属便携式格式「Gaussian-VRM(.gvrm)」。该格式支持通过JavaScript进行动作控制,便于集成至Web应用、移动应用及VR内容中,真正实现了从生成到应用的全链路闭环。参考GitHub:https://gaussian-vrm.github.io 论文:https://arxiv.org/abs/2510.13978
VR52网成立于2015年,平台提供VR头显、AR眼镜、配件外设、厂商、测评、行业资讯、游戏与应用、展会活动等。