时空能量均衡 ——多平台分发的三维声录制工艺流程探索与创新[上]

本项目探索并实践了利用Ambisonics(高保真球体环 绕声)和Binaural(双耳)技术将基于场景的制作工艺 和传统基于声道的流程进行整合、适于多平台分发的三维 声录音制作工艺流程。首创并详释“时空能量均衡”术语 + 概念,衍生理念包括“优化时空能量构成”“仿生的时 空能量均衡”。该理念触及了业内普遍存在的不良实践—— “罐头观效”的缘由、规避的必要性/ 方法剖析;优化的 实践也借以该理念得到简明且科学的阐释。

摘要

三维声( 也称沉浸声),是指相比传统2.0 立体声或5.1 平面环绕立体声等格式,增加了高度信息,使得声场重现更为逼真,听者仿佛身临其境。2018 年,广电总局印发的《4K 超高清电视技术应用实施指南》中对音频技术提出了有条件可支持三维声的要求。随着用手机看电视,戴耳机听音乐的移动平台用户数量急剧增加,移动平台成为电视节目分发的重要平台,融媒体的发展势不可挡。电视观众流失殆尽,手机用户如何锁定?关键词之一是提升用户体验。我们看到,以央视为代表的一线卫视在其手机客户端推出了三维声节目。

对经济低迷的地方电视机构而言,想要从立体声升级到三维声,如果沿袭基于声道和对象的方式制作和分发,系统全链路改造升级所需的资金投入是无法逾越的障碍。

利用Ambisonics(高保真球体环绕声)和Binaural(双耳)技术进行基于场景的制作为上述困境提供了解决思路。VR 或360°视频的沉浸声标准是基于场景的Ambisonics,仍需结合基于声道的方式进行制作。因此,本项目以交响音乐会为例,旨在探索创新且高效的制作流程,将基于场景的制作与传统基于声道的流程整合,进行三维声录制和以移动平台为主的多平台分发。

正文内容分五部分展开。第一部分,基于声道、对象和场景的音频:简述,回顾和展望;第二部分,案例分析(1)BBC Proms 消夏音乐会,(2)纪念李焕之先生诞辰100 周年纪念音乐会,(3)2020 成都新年音乐会等;第三部分,讨论(1)立体声,可以更三维!(2)“时空能量均衡”详释;第四部分,结论;第五部分,尾声——今后的工作。

一 基于声道、对象和场景的音频:简述,回顾和展望

1.Channel-based: 基于声道的制作

基于声道的制作是指一个声道对应一部重放(监听)音箱,假定制作端和接收端都采用同样的音箱布局,在单声道或立体声时代,这是默认状态。

从本世纪初电视跨入5.1 环绕立体声开始,逐步发展到10 部左右音箱才能重放的三维声,制作端提供的声道数量越来越多。然而,一方面观众家庭的音箱数量并未同步增加;另一方面,受众的个性化需求日益凸显,比如,语言种类的选择、调整语言(解说)相对于音乐/ 音效的比例等等,基于声道的制作显然都无法应对。


2.Object-based: 基于对象的制作

基于声道与基于对象的流程相结合(如DolbyAtmos),恰当地解决了该难题。作为对象的音频实际上未经混合,只是携带了元数据描述其在声场中所处位置和电平。元数据由制作端写入,随音频信号传输到接收端。音频对象不属于某个特定声道,接收端可根据各自实际的音箱布局实时渲染重放,就算绝大部分受众家庭的音箱数量仅够播放立体声也无妨;同时,有条件聆听三维声的受众尽可一饱耳福。因为对象太多会导致渲染复杂程度超出设备计算能力,音乐/ 环境等仍然是基于声道的制作,同样受到基于声道不利因素的制约。制作端需配备十只左右的专业监听音箱构成专业的监听环境、全链路专利技术的渲染、仿真监听、编解码等等,才能进行三维声制作和分发。

没有充足的资金,小型电视机构面对三维声只能是望洋兴叹。

3.Scene-based: 基于场景的制作

基于场景的制作着眼于声音场景的描述,像VR和360°视频,声场的三维沉浸感是强有力的创作元素,加上头部跟踪,让360°环绕于受众的画面大大增强其可信度和感染力。

常见的有Binaural 和Ambisonics。

(1)Binaural:双耳

最简单的Binaural(双耳)可以用一只人工头话筒采集信号。两只微型全向话筒置于人头模型的耳道入口,人头、耳道的物理结构使得左右两侧拾取的声音信号既有时间差和相位差,又有强度差和音色差,代表了呈现于听者双耳的真实场景,通过耳机重放,可还原出逼真的三维空间感。

基于心理声学和计算机处理能力的飞速发展,更多的Binaural 节目是经由计算模拟头部、耳朵、躯干和房间反射与直达声叠加产生的听觉信息合成的。在消声室测得HRIR(头部相关脉冲响应或HRTF 头部相关传递函数)或非消声室的测得的BRIR(双耳房间脉冲响应)对原始信号做卷积处理(指按时序加载不同的滤波器),造成声音是在听者头部以外的一个给定空间的听觉印象。

双耳房间合成技术(BRS)[1] 利用在多通道控制室的甜点采集到的多个监听扬声器重放的BRIR,对原始节目素材做卷积处理,可以让5.1.4(或其他格式)的标准监听在一副普通耳机上即可实现。因其仅涉及到在制作链路末端亦或接收端插入硬件/ 软件的针对特定三维声格式的双耳渲染,不关乎具体的录制工艺和流程,所以未在本项目中采用。

Binaural 节目有平面和3D、静态和动态之别,前者取决于是否携带高度信息,后者取决于是否有头部跟踪。因为是双声道,所以可以方便地利用现有立体声系统进行制作和分发,普通耳机即可聆听,是小型电视机构即时开展三维声制作、移动平台分发的捷径。本文涉及的案例都是静态3D 渲染的双耳节目,以下简称Binaural3D(双耳3D)。

(2)Ambisonics:采集、制作、传输三维声的中间格式[2] [3]

先从Ambisonics 话筒说起。最初是从M/S 话筒技术发展而来,用理论上应该完全同轴的4 只话筒(1只全指向,3 只8 字指向)分别拾取位于三维空间坐标中心的0 阶和1 阶(前后X/ 左右Y/ 上下Z 轴)各方向的声波,构成一个完整三维声场的极简表征。由于4 个振膜完全同轴无法实现, 一阶Ambisonics(FOA)话筒其实是将4 个心形话筒振膜紧凑安装于一个四面体,见图1。这四个振膜输出的4 路原始信号被称为A 格式,需要经过复杂的数学计算(不只是简单的和差矩阵)来合成代表三维空间分量(W/X/Y/Z)的B 格式(其中包括通过用时空校准来实现的各振膜的精确“同轴”,相关概念和应用在下文“时空能量均衡”板块有进一步阐述),见图2。


image.png

image.png

高阶Ambisonics(HOA)基于球面谐波和空间采样的原理,将更多的话筒振膜置于一个球形表面(见图3),其合成的空间分量(球面谐波或通道数)M和阶数N(代表其空间解析度)的关系是M=(N+1)2,提升了空间解析度的同时,信噪比降低(话筒更多了),计算、存储和传输的消耗也相应增加。但是,HOA 下转FOA 很简单,例如,从7 阶(7+1)2=64 通道到1 阶,只需保留0~3 通道,扔掉其后的通道即可;如果继续扔掉1~3 通道,只保留0 通道/W 分量(0 阶)的话,就是该声音场景的全向描述,相当于一只单声道全向话筒,和单声道完全兼容。

image.png

因此,B 格式信号是多通道音频,但它仅仅是描述了一个3D 的声场,可以制作、传输并交换,和重放方式没关系。只有通过正确的解码(根据既定的音箱布局)、抑或针对耳机重放做渲染,才能正常聆听B 格式音频。

有三种方式可以产生B 格式信号,分别为:

◆用Ambisonics 话筒采集,并转码;

◆任何Mono 信号,用3D Panner 编码(计算出该信号的空间分量);

◆上转(从多通道音频编码至B 格式或者低阶Ambisonics 转高阶)。

依据其空间分量排列顺序的不同,B 格式信号又分为不同格式,如FuMa(WXYZ,70 年代以来的经典格式)、SN3D(WYZX,也称为AmbiX 格式,目前最为常用)、N3D(很少用到),格式互转用免费插件即可完成,只是需要提防底噪的变化及电平是否过载。

从1973 年由牛津大学教授Michael Gerzon 首次提出Ambisonics 概念、到英国Calrec 公司出品世界上第一只一阶FOA 话筒Soundfield,中间一度沉寂,直到几年前因VR 风靡再度蹿红、国际主流视频网站YouTube 等指定Ambisonics 为其沉浸声标准格式,发展到今天,Ambisonics 代表的是服务于三维声制作的一系列技术,通常是基于高阶Ambisonics(HOA),可以实现精确采集、制作,高效传输。采用这样的格式,通过制作端和接收端各自的解码渲染,能在诸如耳机、任意布局的扬声器(2.0 立体声、环绕声,或是条状音箱Soundbar)播放出令人信服的三维声场。有趣的是,作为一种中间格式,Ambisonics 已过了专利保护期,不少学术机构研发的编解码软件免费且质优,例如,IEM[4] 和SPARTA[5] 等。

4. 基于声道、对象、场景的制作相结合——电视音频的未来

基于声道、对象、场景的制作,三种方式各有其特点。简言之,基于声道,简洁直观,但不具备灵活性、无法个性化;基于对象,个性化成为可能,但复杂程度随之增加;基于场景,灵活度高,个性化不够。三种方式相互结合,被认为是电视音频制作的未来。

在一些国家已得到应用的MPEG-H 作为下一代

电视广播的编解码传输标准[6],让以混合方式制作的电视节目实现了多平台分发:语言或音效作为对象,受众可以自由选择语言种类、想听的内容,并灵活调整其电平;音乐作为场景,受众无音箱数量、布局困扰,可自由选择耳机、Soundbar 等设备播放……立足现实,且慢畅想未来。

本项目仅以交响音乐会为例,重点探索基于场景的制作与基于声道制作的流程结合,对于当前小型电视机构的现实意义。针对业内普遍存在的不良实践,笔者也提出了独到见解,以创新理念的方式为三维声制作导航。


二 案例分析1.Proms ( 消夏音乐会):BBC 和Binaural3D[7]

消夏音乐会是伦敦皇家阿尔伯特音乐厅颇负盛名的古典音乐季,通常是由BBC Radio 3全程立体声直播。BBC 调查数据显示,越来越多的用户习惯于带耳机欣赏古典音乐。鉴于Binaural 3D 可以让立体声的音乐听起来定位更好,更具包围感和临场感,声源像是“来自外面”(Externalization),不是在头中嗡嗡作响,听者仿佛 “就在现场”。从2016 年起,BBC 的Proms 消夏音乐会在Radio 3 电台直播的立体声版本基础上增加了网络平台直播的Binaural 3D 版本。我们看到,超心型的Schoeps CCM 41L 和41VL 各四只,两两紧邻,垂直面为同轴、振膜间夹角90°,水平面振膜间呈18cm 小间距,组合成立体声ORTF 话筒的3D 版,学名ORTF 3D,作为三维声环境主话筒,吊装在皇家阿尔伯特音乐厅观众区上空,离地10m,距台口12m(见图4、图5)。

image.png

image.png

立体声直播调音台为双耳3D 制作调音台提供了推后信号,分成乐队主话筒、辅助点话筒、混响、环境主话筒四组信号,由IRCAM 公司的Panoramix 空间音频混合引擎处理每组信号的3D 声像定位、延时、电平等,采用Neumann KU100 人工头的HRTF 参数做双耳渲染,输出Binaural 信号用于直播。

在消夏音乐会Proms 的双耳3D-- Binaural 网络播出的页面,没有想象中复杂的设置(诸如选择头围、耳机品牌型号等),简明的文字告知听者需注意的仅仅是正确佩戴耳机,左耳对应左声道,右耳对应右声道。大家都知道,每个人的头部耳朵躯干的结构独一无二,每个人都有自己的HRTF(头部相关传递函数)。理论上,个性化的双耳渲染处理才会有最理想的效果。然而,至少在目前,这样的诉求难以实现。借鉴BBC 的经验,让我们有信心在有限的技术条件下继续三维声的探索。因此,除非特别提及,本项目实践案例中的所有双耳化渲染都采用Neumann KU100 人工头话筒的HRTF 参数。

消夏音乐会案例中,其他值得学习和探讨之处包括以上提及的4 个编组信号之间的时间关系 -- 延时处理;后文将继续讨论:延时主信号——优化时空能量构成!采集真实的三维空间 & 现场观效;以及由此诞生、对于三维声的制作实践有较强指导意义的全新术语+ 概念“时空能量均衡”。另一方面,根据李大康教授(本文作者之一)多年的研究实践,作为分层拾音的主环境话筒阵列,相比ORTF 3D 制式话筒,大间距的三维空间阵列其实是更好的解决方案。(未完待续)


参考文献:
[1] https://smyth-research.com/
[2] Agnieszka Roginska, Paul Geluso 编著,《沉浸声:双耳和多通道音频的艺术与科学》[M]. 纽约:Focal 出版社, 2018:88-310
[3] Ferdinando Olivieri,Nils Peters, Deep Sen 著,《基于场景的音频和HOA:技术总揽及在NGA(下一代音频)、VR、360°视频中的应用》,[C]. EBU,2019. https://tech.ebu.ch/docs/techreview/trev_2019-_SBA_HOA_Technology_
Overview.pdf
[4] https://plugins.iem.at
[5] http://research.spa.aalto.fi/projects/sparta_vsts/  http://www.aes.org/e-lib/browse.cfm?elib=20417
[6]Stefan Meltzer, Max Neuendorf, Jan Plogsties, et al. 著,《MPEG-H 电视音频系统及国际标准化发展》[J].《信息技术与标准化》 2017,(6):54-57
[7] Tom Parnell, Chris Pike 著,《古典音乐制作从立体声到双耳混录的高效方法》[C].米兰:144thAES, 2018:e-Brief 430

转载请注明来源:《现代电视技术》 作者:四川省成都电视台 向海燕 Merging 亚太技术支持中心 朱杰 中国传媒大学 李大康 美国约翰霍普金斯大学 黄鹏