
Apple 机器学习研究团队近日公开了一项名为 SHARP(Single-image Holistic And Realistic Photorealism)的全新 3D 合成技术。该方法仅需一张普通照片,即可在不到一秒的时间内生成具备真实感的 3D 场景,并支持实时渲染——为单图像 3D 重建领域树立了新的性能与质量标杆。
SHARP 的核心技术在于,通过一个端到端的神经网络,直接从单张输入图像中预测出 3D 高斯表示(3D Gaussian representation)的完整参数。整个过程仅需一次前向推理,在标准 GPU 上耗时不足 1 秒。
相较于此前最先进的方法,SHARP 将 3D 生成所需时间缩短至 千分之一。更关键的是,所生成的 3D 模型可在消费级 GPU 上实现 每秒超 100 帧 的渲染速度,同时输出高分辨率、照片级真实的邻近视角图像。


不同于多数仅关注视觉效果的 3D 重建方案,SHARP 生成的 3D 表示建立在 以米为单位的绝对尺度 之上。这意味着用户在虚拟环境中移动视角时,其位移量能与现实世界中的相机运动精确对应,极大提升了交互的真实感与可用性。
研究团队在包括 Unsplash、ETH3D 和 Middlebury 在内的多个公开数据集上进行了广泛测试,验证了 SHARP 在不同场景、光照和内容类型下的 高泛化能力与鲁棒性。
在客观画质评估方面,SHARP 表现同样亮眼:
在 LPIPS 感知相似度指标上,相较当前最优模型提升 25%–34%;
在 DISTS 图像失真度量上,误差降低 21%–43%。
更重要的是,该方法能在保持几何结构完整性的同时,精准还原输入图像中的 细微纹理与锐利边缘,使合成结果在视觉上几乎难以与原始照片区分。
目前,相关论文已在 arXiv 公开,项目代码也已开源至 GitHub。Apple 研究团队表示,SHARP 有望成为 单图像高质量 3D 生成的新标准,为 AR、内容创作、机器人视觉等领域带来深远影响。
Apple Github:https://apple.github.io/ml-sharp/

VR52网成立于2015年,平台提供VR头显、AR眼镜、配件外设、厂商、测评、行业资讯、游戏与应用、展会活动等。