缺失音频的VR世界,无法创造真正的沉浸感
【编者按】2016年VR热仍在持续,但与去年不同的是,在经历了头显设备投资热潮后,投资方向出现了多元化趋势,关注点分散到产业链的不同环节。3月份多家VR音频创业公司都于近期完成融资。之前相对较少关注的VR音频开始崭露头角,成为投资的一个新风向标。本文作者 森声科技创始人兼CEO 张瑞博,36氪经授权转载。
VR音频的价值究竟在哪儿?VR视频制作公司、著名导演David Marlett的一句话或许能让我们找到答案。他说,VR影视作品和传统影视的本质区别在于——大信息量选择性摄入。对于大脑而言,听觉和视觉,一开始就是协同工作而非单独分析,只有通过声音的判断,我们才能够做出现实世界中的反应。VR头显厂商为了营造逼真沉浸感,挖空心思提升关键技术参数,比如刷新率、头部追踪延迟、视场角、分辨率等,但这些参数中,唯一缺少的就是音频。
为什么音频对沉浸感有这么重要的作用?我们来把美国哲学家希拉里·普特南曾提出的“缸中之脑”的概念套用在VR中。如果想获得完全的沉浸感,那么你在VR世界中获取信息后作出的反应,就应该与现实世界中获取信息后的反应保持一致。比如:当一位美女在你左侧拍手,你在现实中正常的反应就应该是向左侧转身,然后获取拍手的人是美女这个信息,即:听到拍手声(判断行为依据)—— 转身(行为动作)——看见美女(信息获得)。可见,声音在这里起到的作用是行为产生的最初始依据。这就是全景音频对VR体验的价值,它是引导用户获取信息的“线索”。
VR的一个重要问题就是信息的选择性摄入,在传统显示方式中所有的信息都在用户的面前,没法选择。但VR不同,它提供了全景的观看模式,有更丰富的画面供选择,但反而迷失了方向,不知道按照什么顺序观看。所以,你会看到,大部分人带上头盔后都是上下左右看一圈,然后就不知道看哪儿了,这种体验只能带来观感的丰富性,但并无沉浸感可言。而有了VR音频,就完全不同。我们通过声音信息,来指引用户观看的顺序和逻辑,尤其是VR影视,导演需要引导关注点在不同的信息点上移动。而大量无序的并发信息,在没有引导的情况下,最终就会把用户搞得晕头转向,产生观感混乱。
其实,这个问题,国内外各大VR厂商早就心里有数。Oculus Rift集成了数字HRTF(人头相关函数)算法,可以实时计算出游戏世界中声源的方位与距离信息。在影视制作方面Core Sound、Nokia、3Dio也推出了解决VR音频的技术方案。大名鼎鼎的森海塞尔也在2015年CES上宣布进入VR音频行业。
目前主流的VR音频采集方案,主要涉及到声场还原技术和HRTF人头传递函数:
声场还原技术
这是一项十多年前就成熟的技术,最出名的应用就是Sound Field Digital Surround Sound Microphone Systems,通过4个方向的麦克风采集的信息分离开,模拟出5.1 ;7.1; 10.1甚至更多方向的声道,然后通过家庭影院或者影院的音响系统回放还原。
HRTF(人头传递函数)
人们听到的声音和空间中实际发出的声音其实是不同的, 声音在传到鼓膜之前会受到人头部以及头部上各种结构以及材质的干扰,而些干扰可以被大脑察觉并且成为空间判断的依据,这就是为什么人可以分辨声音方向与距离的原因。HRTF可以理解为这些干扰的统称,它从实现方式上可以分为数字HRTF和自然HRTF。Oculus Rift和很多游戏中采用的就是数字HRTF,而自然HRTF是基于双耳录音(Binaural recording)的实现方式,但是因为实现方式不能像数字HRTF那样自由,所以主要应用在影视以及音乐制作中。目前数字HRTF由于各种限制,还无法达到自然HRTF的真实效果。
目前,市面上能解决VR音频的技术方案各有各的优势,主要包括以下几张实现方式:
一是,4向采集---声场还原---数字HRTF模拟---全景回放,包括SoundField Digital Surround Sound Microphone Systems、Core Sound TetraMic等。这种解决方案的最大优点在于体积小方便携带,但缺点是方向信息是通过模拟产生,与实际声场有很大区别,通过后期数字HRTF加工,来还原出音源方向。
二是,立体8向采集---声场还原---数字HRTF模拟---全景回放,目前只有NOKIA、OZO使用这种技术方式,主要采用数字HRTF方案。NOKIA使用了按照等边多边形方式摆放的8个声音传感器来收集数据,然后通过声场还原出360度各个方位的声音信息,再通过数字HRTF运算来加工为人可以感受的VR音频。不足之处在于,将所有的声场运算与HRTF运算全部在终端设备中完成,这个运算量对使用手机设备作为终端的VR设备来说,压力巨大,且价格较高,约6万美元。
三是,自然HRTF采集---声场优化---全景回放,包括3dio、Omnia(OculusVR音频技术合作商)在内的VR音频采集设备。这种解决方案由双耳录音(Binaural recording)技术发展而来,采用自然HRTF而非数字HRTF,在声音的逼真度上较高,用户可以清楚的辨认出方位和距离,对于要求较高的VR拍摄团队或企业来说,性价比较高。目前,Oculus VR与三星Gear VR的Demo视频就是采用这种方案制作的。这种方案的技术难点在于如何保持自然HRTF采集的仿真度,3Dio采用简化Binaural的方式,损失大量的面部以及轮廓干扰,Omnia保持了轮廓与面部特征,但是由于所有特征都挤在了一个水平面上,所以各个方向上的特征会互相干扰影响效果。而另一种技术则采用同轴X Binaural 技术,采集8个方向的信息,可以避免干扰,最大限度还原了人耳的声音效果。
根据Digi-Capital的数据,VR音频市场预计2016年将超过7000万美元,到2020年达到5亿美元。对大众来说,VR领域中有太多的陌生概念需要理解,相比VR视频来说,音频的关注度还相对较好。但我们发现,近期多家创业公司完成融资,进入发展快车道,这也显示出资本市场的投资新方向,随着人们对VR音频重要性认知的逐步成熟,这个领域前景可期。