【干货】开发者必须了解的VR音频定位技术

资讯 5年前

830

要想在VR中获得更好的沉浸感，五感的还原极其重要，视觉还原是其中最为成熟的一部分，而音频——全景声，随着技术的发展，也慢慢在VR内容中应用起来。纵观全球声音定位技术，主要可以分 3 种：声道为本（C

要想在VR中获得更好的沉浸感，五感的还原极其重要，视觉还原是其中最为成熟的一部分，而音频——全景声，随着技术的发展，也慢慢在VR内容中应用起来。

纵观全球声音定位技术，主要可以分 3 种：声道为本（Channel Based）、面向对象声音（Object Based）及场景声音（Scene Based）。值得留意的是，各种技术都可以分为录音、播放系统和输出格式三个部分。以下的内容主要基于输出格式，但也会略提各种录音、播放系统的利弊。

三大定位方式 1．声道为本（Channel Based）传统声音定位技术都是以声道为本（Channel Based）的技术，意思是指所有输出是根据系统的声道数目来制作。例如立体声的音乐就有 2 个声道，5．1 环绕声的电影就有 6 个声道。但这种技术其实即使在环绕声中都不理想。原因是不同的系统设计或摆放将会影响到定位效果，而且难以在不同系统中转换，例如 5．1 环绕声的电影就不能够准确地在 7．1 系统中播放。因此极少在 3D 声效上应用。当然，严格来说，所有播放系统在输出最终都是声道为本，只不过输出前的文件格式和制作方法会有分别。

虽然声道为本的技术在 3D 声效不常见，但基于声道为本的录音技术的悠久历史，发展完善，因此即使使用其他技术，很多时都会借用声道为本的录音技术制作，例如在接下来介绍的面向对象声音（Object Based）技术就常常会用上传统单声道及双声道录音技术。2．面向对象声音（Object Based）近年为了改善不同播放系统的问题，研究人员开始思考如何用一个输出格式去适应所有系统。其中较流行的方法是用面向对象声音（Object Based），相信很多人都在部份戏院或电影的片尾中见到杜比全景声（Dolby Atmos）的标志，这是其中一种较常用的面向对象格式。面向对象是指声音定位以声源（所谓对象）为本，输出并不基于声道数目，而是基于声源数目。

简单而言，每一个「对象」会输出两样信息，它的声音，和它在 3D 空间中的位置。在播放时，播放器会根据对象信息，以及影音系统的设定去分配各声道的输出，从而准确定位。因此这技术除了可以用同一输出档案做到跨系统播放，亦可以做出超越水平面的 3D 定位。常见的对应输出系统为 VBAP （Vector Base Amplitude Panning），基本上是传统 5．1 或 7．1 环绕声加上不同高度的喇叭（有关各种输出系统之后会再介绍），但亦可以在传统 5．1 或 7．1 环绕声系统，甚至双声道系统播放。

优点：声音定位一般较凖确，而声音质素亦通常比较好

缺点：输出档案的体积大。声音来源集中，欠缺现场感

场景声音（Scene Based）

除了以声源为本，另一种常见的方法是以场景为本。场景为本的意思是指，我们尝试记录在空间中一个点上接收到的所有声音。你可以想象成是记录一个人在某场景中所听到的所有声音。唯一的分别是，人类的听觉有方向性，例如来之前的声音会比来自后面的声音清晰，当声音来自左边左耳会感受到的音量会比较大等。但场景为本的录音通常不会纪录方向性的分别，无论声音从那方面以来，都会清晰地记录在录音中。

其中最常见的录音方法为Ambisonics （该名词未有通用的翻译）。它用几组收音来全方位地记录场景声音。之所以要用几组收音，是为了把场景中的声音分为几个轴，最常见是分为左右（X）、前后（Y）和上下（Z）方便在后期制作中定位和加添指向性（只用 3 个轴的Ambisonics 称为 1st Order Ambisonics，可根据球谐函数（Spherical Harmonics）去加添更多轴，提高到更高 Order，从而提升声音定位解像度，一般制作用最高可以到 5th order，但 X Y Z 三轴是较常见也比较容易理解，有机会再另立文章讲解 Ambisonics Orders）。

大家可以想象，在播放该录音时，如果没有分左右前后上下的话，声音根本不可能定位。该技术最大的优势，是在于档案体积，它最少只需要四条声轨，X、Y 、 Z 和 W （ W 是一条无指向性全方位录音— Omni Directional Recording），就可以重现 3D 声效，比 5．1 环绕声还少，因此此制式在360 影片及 VR 中很常见。而且因为他的录音是全方位的，他可以清楚记录所有在空间中漫射的声音（Diffuse sound），也就是说，它可以记录来自四方八面的回响（Reverb），例如在教堂中说话，有时候会听到回音，那些回音有时会从四方八面传来，用 Ambisonics 就能够准确地记录那些回音。Ambisonics 有自己对应的播放系统，其特色是所有喇叭的间距必须一致，平均地分布在一个虚拟球面。

之所以要这样安排，是因为在播放时，即使声音内原只有一方，理论上所有喇叭都会播放相对应的场景声音。概念上一般读者可能较难理解，但概括而言，在播放任何声音时所有喇叭都会运作，来重现录音场景的音场。当然这播放系统在民用上是很不现实的，因为理想的播放系统需要很多喇叭，而且摆放位置要求极为精准，有时甚至要钻穿地下来放置喇叭。因此，通常都会用耳筒来重现虚拟的 Ambisonics 播放系统（称为 Binaural Audio技术），亦有不少软件可以将 Ambisonics 转换成其他系统格式包括环绕声和立体声。

优点：音质代入感强，仿似在场景中。输出档案一般较细，4条声道起。缺点：录音质素通常比较差，因为录音器和声源之间通常有一定距离。录音过程较复杂，和通常要利用特别器材，如 Ambisonics 。

位于英国的 Ambisonics 播放系统

Sennheiser 出品 Ambisonics（ 1st OrderAmbisonics ）

Eigenmike? Ambisonics （ 4th OrderAmbisonics ）

比较各种声音定位技术之优劣

各种技术的应用情况

声道为本

如前文所言，传统声道为本的格式在 3D 声效中的应用比较少见。主要是因为他难以兼容不同的播放系统。当然目前有很多没有配备3D声效的电影，都继续沿用声道为本的技术。大部份的音乐所使用的双声道，亦可归类为此技术。

面向对象声音

目前大部份的电影 3D 声效多使用面向对象声音。原因是后期制作比较方便，而且得到很多专业公司的支持，例如 Dolby、Auro、ProTools 等，表表者是杜比全景声（Dolby Atmos）系统。

在这里要先讲解一下通常电影声效制作的流程。一般电影的声效是混合现场录音和后期制作。一般而言，现场录音只会记录演员的对白，其他所有声音都是后期制作。相信读者可以猜到，为何面向对象声音比较适合电影制作，是因为所有后期制作的声音甚至演员的对白都可以视为一个对象，并在后期制作中定位。很多电影并无涉及任何场景录音的需要。更何况现在很多电影都用上大量场景特效（绿幕），并非现场拍摄，根本没有真正的场景声音可以录制。

Dolby Atmos 混音插件

另一方面，主流 VR 游戏甚至一些新的非 VR 电子游戏都使用面向对象声音制作，但通常会输出成场景声音，主要是因为面向对象声音技术比较能对应六自由度（6 Degrees of Freedom （6 DoF））的移动，意思是指玩家可以前后左右移动，声音会根据玩家的位置作出对应的调整。

场景声音

其实目前场景声音的制作并不常见，但相信 360 影片的流行，这技术很快会变得普及。这技术其中一个好处是，一般人只要利用 Ambisonics 咪录音，不需要太多后期制作，都可以有理想的 3D 声效，而且该声效可以根据观众观看影片的角度作出对应的调整，（注：只限角度，暂时不包括前后左右移动）。例如你在看影片时可以听到声音从后方来，而当你 180 度转向后方后，你会听到该声音跟随转向移到你的前方。读取场景声音亦不需要很复杂的系统。这技术对系统的要求低，档案容量细，都是在未来普及的潜在优势，特别在 Youtube 和 Facebook 之类的网上串流平台都以这技术为基础。

目前比较平民的器材有Ricoh theta V 的外置收音器。当然目前用此技术最大的问题是，因为收音的距离和欠缺指向性，收音的质素比较差，暂时改善的方法主要会配合面向对象声音使用，所谓的混合方法。

Ricoh theta V 连外置收音

混合方法（A Hybrid Method）

在录音质素的要求比较高的情况下，例如音乐会现场录音，或其他音乐相关的制作等，单靠面向对象声音或场景声音，都难以满足音质要求。面向对象声音欠缺现场感，而场景声音的录音又不够清晰。人类一般对录音的要求，通常比现场的声音高，研究员戏称超真实感声音（Hyper－Realistic Sound）。要达到这个要求，目前最先进的做法是用场景声音作为背景（或称为画纸（Canvas）），在该录音为基础再在上面加上面向对象声音。这样就可以确保声音清晰同时保有现场感。目前 Dolby Atmos 已经支持场景声音，去改善后制的声音效果，可见未来可以用在音乐会或戏剧的现场录音中。而在360影片，一般实时使用混合方法，输出时都会用场景声音 Ambisonics 的文件格式来输出来维持档案的轻巧和容易解读。当然 Dolby Atmos 用较复杂的混合档案，配合该系统，理论上可提供较好的音质。但在 360 影片或 VR 中，因为输出在不同角度下的表现比较平均（所有喇叭的间距一致，平均地分布在虚拟球面），场景声音输出一般是首选。

额外知识： MPEG－H

MPEG－H 是MPEG系列（如．mp4）的新一代高压缩的影音格式，加入了 3D 声效支撑，他同时支持面向对象声和场景声音。这个格式已经发展了一段时间（2013），虽然目前并未流行，但相信未来会成为的主流格式。

小结

目前最常见的 3D 声效应技术为面向对象声音（Object Based）及场景声音（Scene Based）且有时会混合使用。其实这些技术的应用已经日渐普及，很多新出的第一身游戏或多或少都会用到 3D 声效去增加现场感。特别在射击游戏，能够用耳朵去感觉四面八方能大大改善游戏体验。而在 360 影片或 VR 甚至其他 XR （统称 VR、AR、MR 等虚拟现实的体验为 XR）的潮流下，很多公司包括 Abbey Road Studio 和 BBC 都投放很多资源去改善 3D 声效制作及播放技术。

# 音频定位