技术

Meta提出的NVAPE方法:使用有限信息优化AR和VR的声音效果

  • 2025-04-22
  • 新视场声学合成(NVAS)正在获得业界的关注,特别是在增强现实和虚拟现实领域的发展中。然而,大多数现有方法存在局限性:它们推断时域的房间脉冲响应(RIR),这增加了优化的难度;专注于简单、单房间场景;仅能推断出单通道、方向无关的声学特性;并且需要输入如具有材质属性的3D几何网格。

    另一方面,研究表明在AR和VR中的感知合理性并不需要RIR的采样精度。诸如清晰度指数(C50)或混响时间(T60)等标准声学参数已证明能够描述RIR的相关特性,特别是对于后期混响。

    为了解决这些限制,芬兰阿尔托大学和Meta团队提出了一个新的任务——新视图声学参数估计方法。他们使用单个随机选择的RIR作为校准输入来建立模型对声学环境的理解,并将此任务框架为图像到图像的转换问题。通过这种方式,即使是使用VR眼镜的用户也能体验到更真实的声学效果。

    研究人员设计了一个模型架构,该架构能够利用简单的二维平面图形式的有限几何信息以及参考RIR作为输入,共同估计多个频带的多个空间分布声学参数。实验表明,所提出的方法显著优于统计基线,尤其适用于方向相关参数预测。此外,该方法可以在非常有限的信息下运行,在推理时只需要场景的大致轮廓和单个RIR。

    当致力于探索增强现实和虚拟现实技术以实现有效的娱乐、通信和远程呈现时,合理的声音表现是沉浸式体验的关键要求。研究表明,在封闭空间中使用精确的声学模型渲染虚拟声音可以提高可理解性和声音定位准确性,从而提升共存在感和联结感。例如,通过VR眼镜体验复杂多房间环境时,精准的声学模拟能够让用户体验到更加逼真的声音互动。

    团队基于NVAS先前的研究,介绍并提出了一种新任务——新视图声学参数估计(NVAPE)。这里,他们使用有限的几何信息来预测场景的二维声学参数,而无需精确的材质属性。同样,这种方法也使得佩戴VR眼镜的用户能够在虚拟环境中享受到更为真实的声学体验。

    总而言之,团队确定了一个新的任务——新视图声学参数估计。它不仅预测未见场景及任意源和发射器位置的声学参数,还用于调节混响器以产生RIR。研究人员提出的模型架构能够利用简单的二维平面图形式的有限几何信息以及参考RIR作为输入,共同估计多个频带的多个空间分布声学参数。这种创新方法不仅推动了NVAS领域的发展,也为VR眼镜提供了更加丰富的沉浸式体验。

    共 0 条评分
  • 热度
  • 最新
  • 最早
  • 没有更多啦

    VR52

    VR52网成立于2015年,平台提供VR头显、AR眼镜、配件外设、厂商、测评、行业资讯、游戏与应用、展会活动等。

    热门VR眼镜

    热门资讯

    标签

    头显眼镜对比
    清除所有