Meta提出的NVAPE方法：使用有限信息优化AR和VR的声音效果

2025-04-22

新视场声学合成（NVAS）正在获得业界的关注，特别是在增强现实和虚拟现实领域的发展中。然而，大多数现有方法存在局限性：它们推断时域的房间脉冲响应（RIR），这增加了优化的难度；专注于简单、单房间场景；仅能推断出单通道、方向无关的声学特性；并且需要输入如具有材质属性的3D几何网格。

另一方面，研究表明在AR和VR中的感知合理性并不需要RIR的采样精度。诸如清晰度指数（C50）或混响时间（T60）等标准声学参数已证明能够描述RIR的相关特性，特别是对于后期混响。

为了解决这些限制，芬兰阿尔托大学和Meta团队提出了一个新的任务——新视图声学参数估计方法。他们使用单个随机选择的RIR作为校准输入来建立模型对声学环境的理解，并将此任务框架为图像到图像的转换问题。通过这种方式，即使是使用VR眼镜的用户也能体验到更真实的声学效果。

研究人员设计了一个模型架构，该架构能够利用简单的二维平面图形式的有限几何信息以及参考RIR作为输入，共同估计多个频带的多个空间分布声学参数。实验表明，所提出的方法显著优于统计基线，尤其适用于方向相关参数预测。此外，该方法可以在非常有限的信息下运行，在推理时只需要场景的大致轮廓和单个RIR。

当致力于探索增强现实和虚拟现实技术以实现有效的娱乐、通信和远程呈现时，合理的声音表现是沉浸式体验的关键要求。研究表明，在封闭空间中使用精确的声学模型渲染虚拟声音可以提高可理解性和声音定位准确性，从而提升共存在感和联结感。例如，通过VR眼镜体验复杂多房间环境时，精准的声学模拟能够让用户体验到更加逼真的声音互动。

团队基于NVAS先前的研究，介绍并提出了一种新任务——新视图声学参数估计（NVAPE）。这里，他们使用有限的几何信息来预测场景的二维声学参数，而无需精确的材质属性。同样，这种方法也使得佩戴VR眼镜的用户能够在虚拟环境中享受到更为真实的声学体验。

总而言之，团队确定了一个新的任务——新视图声学参数估计。它不仅预测未见场景及任意源和发射器位置的声学参数，还用于调节混响器以产生RIR。研究人员提出的模型架构能够利用简单的二维平面图形式的有限几何信息以及参考RIR作为输入，共同估计多个频带的多个空间分布声学参数。这种创新方法不仅推动了NVAS领域的发展，也为VR眼镜提供了更加丰富的沉浸式体验。

上一篇：动手体验：‘PresenZ’技术将影院级CGI转换为PC VR和Quest上的体三维视频

下一篇：Meta 重磅升级开源 Immersive Web SDK，深度集成 AI “智能体工作流”

热门XR资讯

高通Snapdragon AR波导佳能XR 消费级AR Snap Specs Meta Connect 谷歌智能眼镜 XR芯片 Project Swan VR一体机 Meta AI Meta Reality Labs 亚利桑那阳光宏碁系统更新侧载应用维信诺玻璃基OLED LBE大空间沉浸娱乐银翼杀手微机电系统固态电池 AR隐形眼镜体育科技曼城索尼PS 高PPI 手术机器人医疗科技

Meta提出的NVAPE方法：使用有限信息优化AR和VR的声音效果

Meta 重磅升级开源 Immersive Web SDK，深度集成 AI “智能体工作流”

猴子仅凭“意念”畅游虚拟世界！比利时鲁汶大学脑机接口研究取得突破

无需香精！独立研究团队用超声波“直连大脑”实现人工嗅觉，VR 感官革命或将到来

Meta 将 AI 智能体集成到其 Web VR 开发开源框架中，从而无需编写代码即可创建 VR 体验。

谷歌发布了“Vibe Coding XR”，“氛围编程”在XR应用开发中的实用化

Niantic Spatial 推出 Scaniverse 平台与 VPS 2.0

Meta Quest 3

Pico 4 Ultra

Pico 4 Ultra Enterprise

Valve 正式发布 Steam Frame：2026 年登场的“流串优先”VR头显

Xreal 推出具有原生 3DoF 跟踪、更大视野和内部 X1 芯片的新型 AR 眼镜

Meta Quest 推出重大更新，新增Windows集成等多项功能。

深入解读 Meta Quest v77 PTC 更新：眼动追踪及其他前沿功能

Play For Dream 在 Kickstarter 上众筹，将其 Apple Vision Pro 和 Quest Pro 跨界产品推向欧美