January 19, 2011

ラウドネス音声基準規格はユーザをリモコンボリュームから解放する切り札になるか? 2010InterBEE Content Forum 音響部門リポート



By Mick Sawaguchi 沢口真生(音響フォーラムコーディネータ)

=== ラウドネス関連の資料とリンクを追加しました ===
ラウドネスによる音量適正化(PDF) 2011-11-17 InterBEEチュートリアル セミナー資料
日本ラウドネスメータ協議会 - 技術資料のタウンロード
デジタルテレビ放送番組におけるラウドネス運用規定 TR-B32(PDF) - ARIB
T032リファレンス音源 - 民放連
=== 2012-02-01 ===

「サラウンド入門」は実践的な解説書です

[ はじめに ]
2010年の音響フォーラムは、ラウドネスモニタリングを取り上げました。
放送、音楽、CMなどでは、「ラウドネスWAR」とよばれる「大きいことはいいことだ!」という思想背景のもとで過激な音量競争をもたらしその結果、ユーザーは、極度に圧縮、音質加工された音を聴き、局・番組・CM間などで生じる音量差を補正するために、リモコンボリュームを手放せないという状況になりました。こうした状況を解決するためITU-Rにおいて、聴覚モデルを用いた「ラウドネスモニタリング 」を規格化する作業が進行中で2011年春には、各国の合意をうけて最終案が勧告される予定です。これと平行して、ヨーロッパ(EBU)、アメリカ(ATSC)そして国内でも電波産業会(ARIB)や民放連/JEITAを中心にラウドネスモニターによる制作基準が2011年中に策定予定です。

今年の音響フォーラムでは、この動向をいち早く紹介し、制作から送出、放送やメディア、視聴者までどういった課題やメリットがあるのかを多角的に取り上げることにしました。またシンポジューム会場へラウドネスメータ協議会参加11社のご協力を得て実機も合わせて展示デモを行いました。

今回パネラーとして講演していただいたのは、講演順で、

岡本 幹彦 氏
日本放送協会 放送技術局 制作技術センター 番組制作技術部 副部長
松永 英一 氏
株式会社フジテレビジョン 技術局 制作技術センター 制作技術部 音声統括担当部長
入交 英雄 氏
株式会社毎日放送 放送運営局 送出部 マネージャー
村越 宏之 氏
株式会社IMAGICA デジタルプロダクション ポストプロダクション部五反田制作第二グループ/
JPPA/サラウンドCM研究会 サウンドエンジニア
フローリアン・キャメラー 氏
EBUラウドネス規格委員会(P-LOUND) 議長

コーディネータと司会進行を
沢口 真生 (パイオニア株式会社 顧問 Fellow AES/IBS)亀川 徹(東京芸術大学 音楽学部 音楽環境創造科 教授)で行いました.以下講演順で概要をリポートします。


1 ラウドネスの技術解説とNHKにおける取り組み:岡本 幹彦 氏

音の3要素のうち心理量 知覚レベルを加味した音の大きさをラウドネスと呼んでいます。これは同じメータの振れ方でも受け取る感覚量は異なるという点がポイントとなります。
近年ラウドネスが着目された背景としては、
アナログ放送では、放送の最終マスターでFM変調をコントロールするためのコンプレッサーにより結果的にレベルのばらつきを解消していた役目がある。
しかしデジタル放送になって番組間レベル、発信地域レベル 局間レベルの差がそのまま放送される結果、視聴者は、音量を調整するためにリモコンが手放せないという状況になりました。

ユーザーの皆さんへ快適なサービスを行ううえでこれを解決しなければなりません。ITU-Rでもこうした世界的な状況を解決するための活動が行われ2006年7月にBS-1770 1771という規格勧告が行われこれにもとずいたラウドネスメータの市場への投入が始まりました。

ここでVUメータでの指示値と音量感についてデモしてみます。VU指示と音量感の相違などが理解できると思います

デモ:(ニュースを再生して)
VUメータリングの限界は、-2〜0VU基準だけでは個人差により読み方が異なるためばらつきが出ています。
近い音と遠い音 高域強調など同じVUメータの振れでも実際の音はこれだけ異なることがお分かりになったと思います。
また放送基準レベルSTB21でいえばNHKと民放では2db異なるのでこれも解決しなければなりません。それでは、現状の問題点がお分かりなったと思いますので、ITU-Rの勧告内容について紹介します。

ITU-R勧告とは、
2000年9月から検討開始。
2006年7月 
BS-1770ラウドネス測定用アルゴリズムを決定 
BS-1771ラウドネスメータの要求条件を決定
2010年3月 
BS-1864 番組交換基準運用
が勧告されました。現在修正部分についてつめの作業が行われている状況です。

BS-1770 アルゴリズムのシステム解説
ラウドネスレベルはモノーラルからサラウンドまでモードによらず 一つだけで規定されます。入力信号は、
プリフィルター  RLBフィルター をあわせたKフィルターという特性(図参照)にしたあと方向性により音量感が異なる点を補正するために後方サラウンド信号はフロントより1.5db高くするといった回路で解析されラウドネスレベルという値で指示されます。この単位はLKFSを使用し 1KHZ 0dbFSで −3.01LKFSに対応しています。番組やCMである無音区間は、計測時に省く方向で修正勧告する予定です。(ゲート処理)


測定ブロックダイアグラム(ゲート区間採用構成図)


方向別重み付け(リア成分は0.5db高く補正)


プリフィルターの特性


聴感補正特性


総合特性 K-フィルター

BS-1771:メータの仕様
市場で製品化されるラウドネスメータの仕様を勧告した内容で表示方法として大きく3つの方法を検討しています。

リアルタイム表示用
瞬時表示メータ 400msec区間計測
短時間表示   3sec区間計測
番組全体表示用 
ロングターム表示 これは番組全体でラウドネスを表示


BS-1864交換基準の策定 
これは世界的に番組交換を行う上での音量を統一するための仕様(ターゲット レベル)で現在 -24LKFSにするか-23LKFSにするかの審議中です。

NHKの取り組み 
次にNHKでの取り組みの経緯と今後について紹介します。NHKでは、1999年から検討を始めその結果は、ITU-Rへ寄与してきました。現在1770準拠で各パラメータを変化できる試作メータを用いて音声レベル管理の基準を策定するための検証実験を行っています。


1999年 試作モデル


BS-1770準拠モデル

結果の一例としては、
番組ラウドネスの調査: 59番組で測定  平均−20.5LKFS
ニュース 21.5 スポットで−20 クラッチ −19に分布しています。

今後は、番組制作での実運用基準ガイドラインを策定する予定です。我々は、
NHKの使命としてユーザの皆さんがデジタル放送視聴時にリモコンから解放されることをめざしています。どうもありがとうございました。


2 民放連テレビ音声レベルWGの取り組みについて:松永 英一 氏

岡本さんの話でもありましたようにデジタル放送になりますと素材レベルでの音量差がそのまま放送されることになります。
一方でVU指示でのあいまいなCM搬入基準を明確にする必要もでてきました。そこで我々は、2009年3月に検討をはじめ民放連内に準備会合を発足しその後2009年7月より正式なWGを設置し現在に至っており計20名のメンバーで活動し「TVは安心して聞ける」ということを目標にしています。
どのような方法が良いのかを検討した結果、世界的な流れでもあるラウドネスメータによるレベル管理を我々も取り入れることにしました。
ただし現在勧告されているラウドネス測定法ではなく無音区間を省いて実質的な音声レベルで測定できる手法をEBUと連携して提案しています。(ゲート区間設定)。まずー70LKF以下の音はカットします。そして全体平均を出しそこから-8~-10低い部分へゲートを設定してそれ以上のレベルで指示値を出そうと言う考え方です。その理由は、CM制作において冒頭と終わりに0.5秒づつの無音区間があるのでそれを省いて測定しようという提案です。これは、EBUの測定モードに準拠しています。
音声技術者と一般リスナーでの評価実験を実施してどういった効果があるのかを実証しました。さらに永年の懸案でもあったNHK-民放での2dbレベル基準差解消に向けた会合を実施。ARRIB規格を出してそれに全員が準拠する方向で検討しています。以下に当WGの目標を紹介します。

音量感
平均ラウドネス値で規定  これは-24とか-23LKFSといった指標
ターゲットラウドネス=上限値
下限値=ターゲットラウドネス-5LKFS
推奨範囲 上限値~下限値
最大許容ピークレベル
最大許容トゥル-ピークレベル=-1dBTP 
サンプルピークの場合の最大許容レベル=-3dBFS
ダイナミックレンジ
ラウドネス+VU計で検討中(将来はラウドネスレンジを導入か?)
納品には、ラウドネスを表示。
TV音声 レファレンス モデルを作成して頒布予定これは、どなたでもダウンロードできる予定です。また教育用DVDも作成予定です。また設備投資が難しいプロダクション等を対象にラウドネスメータ協議会と連携して簡易測定フリーソフトを提供してレベル管理を簡易に行うことも検討しています。これらの規格は、T032規格として2011年春に確定したい方向で検討しています。その後準備周知期間を1年おいてその間に普及させたいと思っています。
この規格は、TV CM搬入基準にも反映させ全体の統一を図る予定です。
ARIBでも2011年5月で策定を行いたいと考えています。ここで規格上の足並みは揃うので、その後は、小冊子ガイドラインを策定して実運用へむけた啓発活動に取り組みます。対象としては、CM制作関連団体 プロダクションそして 社内周知などです。我々のWGは、「ラウドネス for COMFATABLEサウンド」を目標に活動しています。
どうもありがとうございました。


3 ユニバーサル デザインとしてのラウドネスレベルの導入と課題:入交 英雄 氏

デジタル放送を取り巻く音声状況については、私も永年調査や実験、研究を行ってきました。ここでは、ITU-R勧告にあるラウンドネスメータをどう制作段階で使い分けすればいいのかについていくつか紹介したいと思います。またVUメータタイプの試作機も合わせて紹介します。まず3種類のメータの使い分けについてです。

●ロングターム ラウドネス  
番組全体のレベル管理に向いている。番組交換基準としては最適。

●ショートターム ラウドネス  リアルタイム ミキシングむけ
BS 1771勧告へ400msec計測と3sec計測(モメンタリーとショートターム)の2つがEBUから提案されています。これは現場で生放送リアルタイムミキシングを行う上で必要な規格です。
それではここで3つの表示の相違をデモで体験していただきたいと思います。
デモ:
いづれもオリジナル音とノーマライズ(今回は-24LKFSでノーマライズ)した音で比較。
VU計のふれがこんなに違うということも実感していただけたかと思います。

直線性の調査結果
次にメータの振れ方と音量感にどういった関係があるのかの8番組での調査結果を見ていただきます。これから言えるのは、
VU計では大きなレベルほど直線性から外れて指示値が小さくなる傾向にあります。これは過剰なコンプの影響です。しかし−24LKFS付近ではVUもラウドネスメータも同様な指示をしています。


次に試作しましたVUタイプのラウドネスメータを用いて実用性検証実験を行ってみました。



デモ:VUタイプSTラウドネスメータでターゲット指示値へコントロールしその指示値がどれくらいか?実験。 
結果は、STラウドネスメータ:目標値(ターゲットレベル)にあわせやすい。
測定区間は3秒くらいがやりやすいというアンケート結果となりこの方式でいけそうだという結果を得ることができました。



それではラウドネスメータは、従来の方式に比べて弱点はないのかを検証してみました
ラウドネスメータの弱点は?


● スポーツやバラエティ番組などの歓声が会話レベルより高い場合は、コメントが低くなる傾向になる。
● 映画のようにダイナミックレンジがひろいMIXでも台詞が低くなりラウドネスメータ指示値と主観感覚値の乖離が大きくなる

と言う傾向がでました。これを解決するには、放送向けにダイナミックレンジを圧縮するプロセスなどが必要かと思います。最後に、どんなメータがみやすいか?について検証しました。メータとしては
3種類で調査。バーグラフ表示よりもマーカー付きの針式が好評でした。
以前の実験でもラウドネスを取り入れた場合のCM音量のばらつきも格段に改善された結果が出ていますし、総じてリアルタイム ラウドネスメータは今後有益であるといった結果を得ています。どうもありがとうございました。


4 JPPAでのラウドネス関連アンケート調査結果とCMミキシングの今後
村越 宏之 氏

ポストプロダクション制作、その中でもCM制作が多い日本ポストプロダクション協会JPPAの取り組みから紹介したいと思います。CM制作を主にしてポストプロダクション制作、その中でもCM制作が多い日本ポストプロダクション協会JPPAの取り組みから紹介したいと思います。CM制作を主にしていますJPPAにとっても今後のラウドネスモニタリングと動向は、大変重要だという位置づけで会員各社のみなさんへ個人的なレベルでの考えをもとにアンケート調査を行いました。その結果と今後の対応、また先人としての音量問題へ取り組んだ映画予告編制作での取り組みなどから我々は、何を学ぶべきかなどについて述べてみたいと思います。

1 民放連での動きをしっているか? 

知っている:81.4%
知らない: 16.3%
その他:  2.3%   

2 どう考えるか?
肯定的:55.8%
否定的:18.6%
その他:25.6%

3 ITU-R勧告案は知っている?(BS 1770 1771)
知っている:33.7%
知らない: 58.1%

4 TVでの音量問題をどう考えるか?
内容によってバラつくのは仕方がない:    50%
送出側で揃えるべき:            32.6%
納品基準で制作するスキルは音声技術者に必要:58.1%
受像機側で対応するので気にしない:     2.3%
音量差は気にしていない:          1.2%
その他:                  5.8%

課題は?
MIXはどうかわるのか?はまだ経験が少なく今後取り組む課題。
パッケージ制作では、ファイナルMIXの後でマスタリングプロセスの導入といったあらたなフローも検討する必要があるか。
CM特有の課題---Kフィルターの影響を考えた音作り。固い音作りをすればラウドネスメータでの表示は大きく出、その結果放送レベルは小さくなることになる。
現状の15秒 30秒CMの特性分布でみれば3K/6Kに大きなピークを作る傾向がある。ヤバい! ダイナミックレンジもない。ただ大きいだけ。
今の方法論では納品レベルは小さくなる。やり方を変えないといけない。

現状の15秒/30秒CMのレベル分布調査を紹介します。このようにレンジも狭く特定の帯域が強調され、またレベルもVU納品規定を大幅に越えたMIXとなっています。これらはこのままラウドネス基準で適合していけば放送時に逆に小さくなってしまうという結果をおこしかねません。
アメリカのTASAにおける映画予告編のラウドネス規制や国内の予告編音声レベル規定の基準制定後、規格に収まるようになっています。こうした先行事例も参考になると思います。

データ 15秒/30秒 CMのレベル.周波数分布 調査例

私もCM MIXを多く手がけていますが、そうした経験もふまえて今後の課題として言えるのは、
高域にエネルギーを集中させない。(Kフィルターで1.5KHzから上は4db上がって測定されます)

過度な圧縮はやらない。
トレーラ事例を参考にノウハウを勉強する。
あらたな実験検証をおこなって、ノウハウをつくる。

最後に強調しておきたいのは、「大きな音だけでは価値がない。リスナーの快適さのために」が今後のキーワードの時代になってきたと言える点です。どうもありがとうございました。


5 EBUラウドネス委員会(P-LOUD)活動概要と今後の課題:フローリアン・キャメラー 氏

我々の活動目標は、ONE WORLD ONE SOLUTIONにあります。
世界的にもひとつの規格ですべての制作—伝送—再生までの信号系を扱うことが目標で最終的には、ITU-Rで国際的にも統一された規格勧告ができ我々の活動目標は、ONE WORLD ONE SOLUTIONにあります。
世界的にもひとつの規格ですべての制作—伝送—再生までの信号系を扱うことが目標で最終的には、ITU-Rで国際的にも統一された規格勧告ができるためにEBUのラウドネス委員会 (P-LOUD)は、活動しています。

その背景:
ラウドネス問題は大きいことはいいことだ!という幻想からユーザ視点へ。
日本ではVUメータが使われてきたようにヨーロッパでは、Q-PPMメータ(時定数10msec)が長年使われてきましたがこれも聴感レベルと一致しているわけではありません。さらに放送では、多様なプロセッサーの登場によりダイナミックレンジはどんどんつめる傾向となり、ついにラウドネスWARとよばれる音量競争に突入して現在に至っています。
これをラウドネスのノーマラズという方法で聞こえ方のばらつきを解消しようとEBU内にP-PROUDと言う委員会を設置し2003から2006年にはラウドネスを有効に測定するアルゴリズム測定法を策定する活動を行いITU-Rにて、BS1771として方法が確定しました。

ITU-Rでは、ラウドネスの単位にLKSFを導入していますがEBUでは、よりVUに親しみやすい単位と言う意味でLUという単位を提案しています。これは LKFS同じ指示単位だが、わかりやすい意味で LUをEBUは提案しています。

1771規格を補足したEBU128規格とは

ラウドネス レンジ:全体平均レベルをメディアや伝送によって最適化
最大ツルーピークレベル測定: MTPPにより伝送系内での歪みを防止
ラウドネス レンジ :LUFSを−23とした。(ITU-Rは−24)
許容量は厳しくして1db以内とした。23プラス マイナス1と厳格。
メタデータの扱い:ラウドネスレベルを付加することで番組音ばらつきを防止
ゲート期間:無音部分がある番組でのノーマライズレベルを維持するために
無音部分を削除して測定できるようにした。−10LU下を無視する提案

デモ:ラウドネスノーマライズ ON/OFF  −23LUプラスゲート付き

ピークをノーマライズした音源とラウドネスをノーマライズした比較音源
を再生して多様な番組間でも聴感レベルが揃ってくることがお聞きいただけると思いますし、CMのように過剰な圧縮をおこなった音源はこれをみても逆効果になることがわかります。

伝送:ダイナミックレンジをメディアの特性に合わせて最適化することがユーザーにとっても聞きやすいサービスを提供することになります。例えば映画「マトリックス」のダイナミックレンジを測定すると、25LUのレンジがあるMIXをしていることがわかります。しかしこれをそのまま放送すれば家庭ではレベル差が大きすぎるので頻繁にリモコンでボリュームをコントロールすることになります。これを解決するにはメディアに応じて20LU ---8LUといったダイナミックレンジ指定を行うことで快適なリスニングが可能となります。
私たちORFでは年間150本の映画をサラウンドで放送していますが半年前から20LUにコントロールして放送しています。

ツルーピークの策定:最大値の規定により伝送系での歪みを防止できます
ラウドネスメータの種類は3種類
瞬時400msec 短時間3 SEC 全体の3つ。
表示方式は問わない。針でもバーでも、なんでもいい。ただし技術仕様は世界で統一しましょうというのが提案です。
今年のIBCでは EBUモードで20社のラウドネスメータが出展しました。

最後にEBU DOC128の概要を紹介します。これは以下の規格を提案しようとするもので、
3341:EBUモードのメータ仕様
3342:アルゴリズムの測定法 テスト信号
3343:実運用ガイドライン(策定中)
3344:伝送ガイドライン(策定中 伝送から受信までをカバーする予定)
で構成されます。次にアメリカATSC提案との相違点について紹介します。

ATSC 番組交換基準 -24LKFS ですが我々は 、 -23  LUSF (ゲートがあるかないかの相違)
許容値 緩いATSC +/-2 EBUは+/-1dbを提案
アンカーエレメント:スピーチを中心とするか全体か?選択可能に
ラウドネス レンジ:メディアによる適正化 メタデータ化等
しかしこれらは、細かな点での相違ですので早晩一本化できると考えています.それには、日本からの提案やサポートも大きな要素となります。
音声にとってこれだけの改革ができるタイミングは今後ないといえるくらい今は大切な時期です。
「HAPPY CONCUMER BETTER GOAL ONE WORLD ONE SOLUTION」

今回の標題にもあるように視聴者がたびたびリモコンを使わなくて快適な音が楽しめることが重要な目標です。どうもありがとうございました。

[ 会場からの質問 ]
1 PRE-MIX時の扱いをどうすればいいか?
A:一度適正ラウドネス値を設定すれば後は、耳に聞こえる音がそのまま反映できるので本来のミキシングの基本にもどることができる。というのがこれまでラウドネスメータで1年間実験した感想です。
2 DOWN MIXとサラウンドのラウドネスは?
A:どんなモードでもラウドネスは同じ。係数の見直しができる良いタイミングでもある。係数をつけているのは日本だけ。
3 CM制作側への周知方法予定
A:民放連営業委員会を通じて各種団体へWGで啓蒙活動予定

[ 感想と今後 ]
オーディオモニタリングメータにとって第3の変革と言っても良いラウドネスモニタリングの現状をNHK 民放連  JPPAそしてEBUと様々な視点から講演していただきました。
フォーラム音響部門では、久しぶりの満席立ち見状況となり、参加者の様々な業種業態の方々にホットな話題が提供できたのではないかと我々も一安心しています。
ソフト制作のそれぞれでミキシングは変わるのか?変わらないのか?世界的な番組交換基準やメタデータ 納品方法、ファイリングでのチェックとフロー、そして広告制作や放送局内のエンジニア以外の方々との連携など課題は山積みですが、ONE WORLD- ONE SOLUTIONというキーワードのもと業界全体で取り組んでいただきたいと希望しています。(了)


実践5.1ch サラウンド番組制作:サラウンド関連とラウドネス

「サラウンド制作情報」 Index にもどる
「実践5.1ch サラウンド番組制作」
「Let's Surround(基礎知識や全体像が理解できる資料)」
「サラウンド入門」は実践的な解説書です

January 6, 2011

AMBISONICの原理と制作の実際 1992年 Ambisonic 資料より


技術編データ:
サウンドフィールド社 ワンポイントマイクに使われている「AMBISONIC理論」解説
By Mick Sawaguchi


[ はじめに ]
最近ロケでのサラウンド録音に関連してサウンドフィールド社のワンポイント マイクを使う方々が登場してきました.その方々からこのマイクとプロセッサーに応用されている「AMBISONIC」とは?を調べたいがなかなか良い資料がない。というコメントをいただきましたので、私が1992年にAMBISONICの文献を訳したデータを掲載することにしました。この研究は、M.GERZONというヨーロッパでは、大変尊敬されている人物でAESなどでも毎回たくさんの論文を発表しています。この方式を商業化したのはNIMBUSというイギリス ウエールズにあるレーベルで、そのデコーダをアンプに搭載したのは日本のONKYOとMITSUBISHIでした。彼らは、独自のワンポイントマイクを開発してそれで録音していました。一方サウンドフィールド社は、amsそしてコンソールメーカのカルレック傘下で独自にマイクを制作してきました。これを日本に初めて紹介したのは、現在サンケンマイクにいる小林実さんだったのです。当時の製品に比べ現在はプロセッサーの性能が向上し格段に使いやすくなったという印象です。
論文の翻訳は、理論中心なので読むには根気がいりますので、イントロとして私が1991年にBBC-NHK交換留学でイギリスに滞在した時のAMBISONICサラウンドのリポートを掲載します。(これも懐かしいですね.私が44歳の時です!当時の写真と報告書の最後に書いたコメントも記載しておきました、参考に!)
これで概要がつかめたらM・GERZONの論文へすすんでください。



Ambisonic サラウンドの制作現場
[ はじめに ]
クラシックのCDを制作しているNimbusレコードが採用している方式にAmbisonicサラウンドがあります。
ここでは、ミキシングの立場から、そのハードと実際の録音現場を紹介してみたいと思います。

1 Ambisonic
自然な音響空間を限られたシステムのなかでいかに記録、再現するのかを研究しているいる多くの研究者や機関のひとつにイギリスのNRDC(NationaL/REsEarch DEvElopmEnt Corporation)があり1970年代のクオドラフォニック全盛のころよりサラウンドを研究開発しているようです。ここで開発した方式としてNRDC 45J SYSTEMとかAmbisonicと呼ばれるのがここで述べる方式の基幹部分です。

1-1 Ambisonicのファミリー
総称してUHJ(UnivErsal HJ)と呼ばれるなかに記録、伝送、再生の規模に応じたファミリーがあります。それぞれBHJ/THJ/QHJ/HHJ/と呼ばれ以下の分類がなされています。このなかでNimbus社がとりいれているのは、BHJと呼ぶ水平面360°のサラウンド再現を目的としたフォーマットで、前方2-CH、後方2-CHのスピーカ配置を基本にした形式です。

BHJ変換式(BHJ Encoding Equations)
L+R信号=0.9397+0.2624cosθ-0.0241jsinθ
L/R信号=-0.3420j+0.7211jcosθ+0.9121sinθ

THJ変換式
L+R信号=0.9397+0.2624cosθ-0.241jsinθ
L/R信号=-0.3420j+0.7211jcosθ+0.912sinθ
T=-0.1365j+0.9218jcosθ-sinθ

QHJ変換式
L+R信号=0.9397+0.2624cosθ-0.241jsinθ
L/R信号=-0.3420j+0.7211jcosθ+0.9121sinθ
T=-0.1365j+0.93218jcosθ-sinθ
Q=ajsinθ

HHJ変換式
L+R信号=0.9397+0.2624cosθcosζ-0.241jsinθcosζ
L/R信号=-0.3420j+0.7211jcosθcosζ+0.9121sinθcosζ
T=-0.1365j+0.9218jcosθcosζ-sinθcosζ
Q=1.3804sinζ

ここで使われている記号の意味は以下の定義がなされています。

L+R信号 (ここで述べているL/Rとは、リスナーからみて真正面より左側音源全てをL、右側音源全てをRと考えて下さい。)・・・・・・・・・ 
L/R信号
*L=1/2(L+R信号+L/R信号)、R=1/2(L+R信号-L/R信号)

θ=真正面を0度として反時計方向に+時計方向に-で示す水平面定位角。
ζ=真正面水平線を0度とし上に+下を-で示す上下角。
T=配置したスピーカ再生音の方向性強調情報。
Q=水平面再生のフォーマット時にはTと同様の情報として働き、HHJフォーマットでは、上下の再生情報となる。

2 信号処理上のフォーマットとUHJの関係
1項で示しているように音源は、それを何CHで記録、伝送し再生するのかによって次のような組み合わせが可能です
*BHJの場合
2-CH記録・再生でスピーカレイアウト
*THJ・QHJの場合
3-CH記録・再生でスピーカレイアウトは、発展型が可能。
*HHJの場合
4-CH記録・再生でスピーカレイアウトは、上下が加わる。

ここで信号処理を行っているエリアごとにA〜Dまでの区分けを行っています。よくB-フォーマットとかUHJエンコーダという用語がカタログなどを読むとでてきますが、いまひとつピンときませんでしたのでその関係について・・・

Aフォーマット
音源が持つ周波数成分と方向性成分の収音段階。具体例では、サウンドフィールド マイク等のピックアップ系。
Bフォーマット
W・X・Y・Zと呼ぶパラメータで構成された変換系。
Cフォーマット
UHJエンコーダによって作られ、L+R信号L/R信号T・Qのパラメータからなる信号。
Dフォーマット
それぞれの再生に応じた信号をとりだすデコーダ部の処理(厳密には設定していない)。

では、プロセスの基幹部分となるB-フォーマットとUHJエンコーダの関係をみてみることにします。

2-1 B-フォーマット
先に述べたようにW・X・Y・Z(F)という4つのパラメータで構成されており各々は、
W:音源に対して全指向の信号成分。
X:  〃  前後差成分。
Y: 〃   L/R差成分。
Z: 〃   上下差成分。
(F):〃  水平面再生のみの時の方向性強調成分。
として定義されUHJエンコーダに入力された信号は、以下に示す変換が行われてL+R信号L/R信号、T・Qという4つの信号になります。

L+R信号=0.9397W+0.1856X−0.0171jY
L/R信号=ー0.3420jW+0.5099jX+0.6449Y
T=-0.1365j W+0.6518j X-0.7071Y
Q=0.9761Z
(=jF)

*ちなみにNimbus社の方法は、BHJとしてW成分をB&K4006
XとY成分を互いに直交させたSchoEpsCMC5U(両指向性)のマイクで収録しています。

2-2 疑似Bフォーマット信号処理
Nimbus社の収録手法に親しんだ方には,Ambisonicの録音は、ワンポイント マイクのみと考えられがちですが、通常のマルチ レコーディングした素材でもその音源をLF・RF・LB・RBの4CHと考えてミキシング出力を作れば、疑似Bフォーマット信号として以後の処理を同等に扱うことができます。

3デコード
先の変換式のところに述べているようにデコードに関しては厳密に規定していないようです。
おおまかな信号系統図がありましたので皆さんの参考に紹介したいと思います。(MJ誌92-10月号に柴崎功氏が解説された内容がありますが、やはり氏が推察した回路が紹介されていますので参考にお読みください)
UHJ Cフォーマットで入力された信号は、位相、振幅マトリックス回路で
W・X・Yの信号となりSHELF-FILTERというFFILTERに入ります。このFILTERは、2種類用意されておりW成分がFIL-1、X・Y成分がFIL-2で各々700HzをクロスポイントとしてFIL-1は低域0dB、高域+1.76dB。
FIL-2は、低域0dB、高域-1.25dBのゲイン補正がなされています。
さらに、振幅マトリックスを経て適正スピーカレイアウトに応じた信号が取り出されています。

4ステレオとの両立性
UHJ信号をステレオで再生した場合の音源分布のイメージです。この図から推察できるように後方の成分は、ステレオの場合フロントの奥に定位するバランスとなります。
Dolby方式では、後方成分が逆相としてフロントのL/Rスピーカからさらに広がって再生されますが、どちらも一長一短といえます。
Ambisonicでは、もしも後方に豊な残響成分を含んだ素材はややピントの甘いステレオとなります。
Dolbyの場合こうした成分がL/Rのスピーカから見かけ上外に広がって聴こえますが、逆相である分長く聴くには疲れるといった場合もでてきます。

5 Ambisonic制作の実際
私の資料のひとつに1983年BroadcastSoundに紹介されたBBCのラジオドラマ制作のレポートがあります。”GILGAMESH”というタイトルのドラマが8-CHのサラウンドで制作されこれは世界でも初の試みであろう。システムはAmbisonicのB-フォーマットを使った。という内容です。当時我々は、収録からマスターまでをディジタルレコーディングするフローを作ったところで、ステレオの次には、方式は分かりませんがとにかく2-CHステレオを越える音声表現を目指し始めたところでしたのでこの制作レポートは私に大変インパクトのある記事でした。(1987年に我々はその思いを”シュナの旅”というドラマで実現することになります。)
1991年の春にイギリスに滞在する機会機会があり、ぜひ実際の録音現場に参加をしたいと思っていましたが今回の滞在中で2つのセッション見学できました。また、BBCバーミングハム局もイギリスの中ではサラウンドに熱心なのでその2つの制作状況を紹介したいと思います。

5-1 NimbusレコードのAmbisonicレコーディング
イングランドからウェールズに入ったモンマスという田園牧歌地帯にポツンとたたずむ屋敷がここの本社です。Nimbusは、イギリス国内でCDプレスを持つ大手で(といっても2社しかないそうですが・・・)自社ブランド以外に多くのプレスを受けBBCの番組のCDもここで生産されています。
不況のイギリスにあってここは設備投資も活発でした。ここのCDは音質も良いとクラシックファンの方がいってましたので(私はそちらに詳しくないもので・・・)どんな点に注意しているのか尋ねると”エラー率の基準をレッドブック規格より大変厳しくした独自規格で合格した製品のみ出荷しているからではないか”とCD工場のエンジニアが話してくれました。レッドブックでのエラー規格220位にくらべてNimbusの規格は50となかなか厳しい範囲にあります。
本社内にあるスタジオでは、小編成の録音をおこない大編成クラスは、イギリス国内また、国外で現場録音しています。

コントロールルームといってもNEVE51のコンソールとAmbisonicのエンコーダ/デコーダ、録音は3/4Uマチック、VCRそしてATCのモニター(SCM-100A)が2/2でレイアウトされた極めてシンプルなものです。

  

マイクロフォンは、写真でご覧になられた方もいるとおもいますが、自分達で組み合わせたワンポイントマイク(Nimbus−Hallidayマイク)となっています。B&Kの全指向に8字指向のShopsをクロスに上下から挟むかたちで全体+前後+L/Rという構成です。これはワンポイントで録音している方法ですがMDを担当しているA.Farmarの話では複数のマルチマイク方式でも最終的にエンコーダをとうしてサラウンドにできるのでこだわる必要はないとのことでした。
彼らは、セッティングが簡単でバランスをとるのはアーティストの責任だからワンポイントで十分なのだとの信念を持っています。
敷地内には、現在クラシック専用の200/300席規模のホールを建設中でここに世界から優れたアーティストを招きコンサートを行い、録音もしたいと計画しています。ここにはオーディオー/ビジュアルなソフト制作を可能とするため音声は、Ambisonicで映像はHD-TVにする予定だそうです。
規格統一論議を横目にかれらはソフト制作へのHD-TVの展開を実行しようとしている姿勢はなかなかです。(ちなみにHD-TVは日本方式にするそうでユーレカをあてにしているとビジネス展開に間に合わないと断言していました。)

バーミングハム大学のグレートホールで行われたストリングスオーケストラの録音からメモをたよりにセッションの様子を・・・・・・・・・


午前中がセッティングです。ホール裏が仮設コントロールルームとなります。
ワンポイントマイクは、オリジナルの4-CHマイクヘッドアンプからUHJとよぶエンコーダで2-CHにエンコードされ1630を経由して3/4VCRに録音されます。モニターはデコーダを介して2/2のスピーカーレイアウトでモニターされます(KEF60)。
モニターバランスは、いつも決まっているせいかマイク前で2/2の各ポイントとそれぞれの中間を歩き回ってテストし不自然でなければOKです。記録機器は将来M0かライトワンスCDで録音したいといってました。
アーティストが昼過ぎからきてリハーサルが始まるとミキサーは、マイクのベストポジションを決めにかかります。30分以内に決めないと耳が慣れてダメになるので手際よく判断しないとだめだそうです。
進行は3時間で1曲のペースで、1日2曲計4曲が録音されました。
多少のミスは無視し、アーティストのエネルギーやノリを優先する考えで録音するそうです。
私の感じでは実際の演奏音場で聞いた音と再生される音が大変近い、源音忠実だという印象でコンダクターやアーティストの人に聞いても自分達が聞く音とおんなじなのが良いと述べていました。

Ambisonicワンポイント録音での留意点は、ストリングス系は薄く横を十分利用すること、ボリュウームのある楽器は縦を利用してバランスをとることだそうです。ちなみに、この録音の前日までマンチェスターで行ったBBCオーケストラのピアノコンチェルトではバランスを決めるためのオーケストラの配置に5時間をかけたそうです。
次の録音はイギリス現代音楽の録音で特別の配置となるためどこがベストポイントとなるのか今から検討しておくのだとスコアーを見ながらミキサーは楽しそうでした。レコーディングは年に30セッションほどだそうです。
その日エンジニアを担当した彼の経歴をきくとお父さんがBBCバーミングハムの指揮者で学校卒業後音楽の仕事をしたくてここにきたそうです。エンジニアの知識は殆どなくミュージシアンですがこうした背景を持つ人にはかないませんね!
彼曰く、小さいときから父のそばにいたのでアーティストの人はほとんど僕を知っていて逆に僕は誰が誰だかよくしらないけど仕事はやりやすい・・・です。

Nimbusは、カーラジオでのサラウンド再生にも力をいれておりこれも良いポイントだと思います。TOROYという国内メーカーが製品を作っていますがやはり技術基盤の不十分さからか惜しいことにコンパクト化がいまいちです。できればカーオーディオメーカーと共同でアンプに内蔵できればマーケットとして魅力ある可能性は十分だと思いました。それは、私どものFMサラウンドドラマを車のなかでプロセッサー再生で聞いたところ大変イメージが広がったというコメントを松尾洋一氏が新聞に寄せておられたのを読んでナルホド車とサラウンドという結びつきもアイディアだなあと思った経験があったからです。
日本のハードであれば難しくないのではとかんがえますが・・

5-2 BBCバーミングハムのサラウンドドラマ
1985年から一貫してアンビソニックによるサラウンドラジオドラマを制作しているミクサーMr. M.デッカーを紹介してもらい訪ねてみました。
イギリスのラジオドラマ人口は、一日に聞く人と年間劇場にかよう人がおんなじといわれるくらいさかんです。
コントロールルームは、カルレックのコンソールで、2-2の4CHバスアウト、マルチトラックバスは、32という構成で2-2のスピーカレイアウトをしてあります。セリフはやはりカルレックのサウンドフィールドマイクを使い、エンコードされた信号が、マトリックス2-CHとなります。
ここのシステムの優れた点は、素材録音をams Audio FilEにダイレクト録音し、DATにバックアップします。編集室も同じ機材で、ここでDATから素材を入れ込むと編集となります。この段階でSEや音楽の追加があるとCD等から入れますが、民生機からでもD-D処理できるようにDARのDASフォーマットコンバータが用意されて、最終マスターもDATにFilEからD-Dでダンプされます。

“イギリスでは、サラウンドデコーダの家庭への進出が限られているためBBC全体としてサラウンドをPRできないのが残念だけど私は、この表現のスバラシサを愛しているので自分が担当するドラマは全てこの方式でサラウンド制作してきた”
となかなか信念のあるところを感じさせるオジサンでした。


[ おわりに ]
何事にも信念を持って持続することのすばらしさをここでも感じる事ができました。現行2-CHのなかでもサラウンドを再現しようとする国内外の方式も登場し、音場再生への取り組みが益々活発化してくるにつれ私どもソフト制作の側もさらに研鑽を積まなければエンドユーザーの方々に十分応えることができません。
各種参考資料と現場の体験から報告させていただきました。(沢口真生 NHK放送技術局音声)

* 参考文献

・Encoding Standards for UHJ SystEm
(1977 NRDC Ambisonic TEchnology)
・Ambisonic&UHJ FM Broadcasting
(1979 NRDC)
・ Ambisonic
(1991 Nimbus資料)
・Surround Sound Psychoacoustics
(1974 W.WORLD)
・NRDC Surround Sound SystEm
(1977 W.WORLD)
・Ambisonic part1・2(1975 S. Sound)

では論文本編です。AMBISONIC INTRO

Ambisonicは、単にサラウンド音響を提供するシステムというばかりでなく、そこには我々人間が音の方向性を耳と脳でどうやって知覚しているのかに基付いたアイディアとそれをどうやって実際のシステムに結び付けるのかの技術と哲学を融合した産物といえます。
すでにモノラル信号の音をどう録音し、伝送し、再生すれば良好な特性が維持出来るかについての基本的問題点は解決したと考えてよいでしょう。
残った大きな課題は「いかに空間的な方向性を忠実に再現するか?」にあると思います。
モノラル再生に比べればはるかに改善されたといえる2ースピーカーによるステレオ再生でもこの方向性情報の正確な再現という点ではまだ不完全と言わなくてはなりません。我々の脳の聴覚処理では半分が方向性を認識するのに充てられているということからも、いかに方向性認識情報が重要であるのかがお分かりいただけると思います。皆さんが、コンサートホールや響きの多い場所で、片耳をふさいで音を聞き分けようとするととても聞きずらいといった現象に遭遇するでしょう。
たくさんの音がある中で特定の、しかもかすかな音を聞き取ろうとするためには、耳と脳での方向性知覚と音質知覚が大切な機能を果たしています。
このように方向性の再現までも十分行おうとするには、多くの方向から単に音を再生すれば良いというものではありません。これが最善の方法だとすれば、とても不自然な再生となるでしょうし、品質や忠実性もなんら改善が見られないでしょう.Ambisonicの考えを理解していただくにはこの点に留意していただければより理解が速まるとおもいます。すなわち,Ambisonicは、音源の自然さ、リアリティーをステレオ以上に再現するためのシステムであるということです。

[ マイケル ガーゾン 略歴 ]
MichaEl A.GErzonは、1945年イギリス ガーミンガムで生まれました。1967年オックスフォード大学 数学科を専攻し、大学院では、公理量子論を研究しています。音楽の趣味からオーディオの研究も手がけ、知覚認識や、情報理論さらに1967年からは、音楽レコーディングを手がけるようになり、Emma Kirkby, MichaEl TippEtt, PErE Ubu や Anthony Braxtonの作品をLP・CD制作しています。
1971年からは、オーディオや信号処理のコンサルタントも行いました。
彼は、1970年代から1980年初期にかけてのBNDCとの共同研究になるAmbisonicの開発に、サウンドフィールドマイクロフォンの開発で知られるDr. PEtEr CravEnとともに重要な役割を果たしました。彼はまた、方向性再現システムの設計にあたり人間の聴覚心理音響を数学モデル解析化する手法も考案しています。この業績で、1978年には、AESのFEllowとなり1991年には、AESゴールドメダルがAmbisonicの業績に対し送られています。
出版された論文は、線形非線形信号処理、システム理論、ディジタルリバーブ、データ圧縮、スペクトラル解析の理論と応用と多岐にわたりAudio Animation社とディジタル信号処理でのアルゴリズム研究に携わっています。
コンサルタントとしては、PEtEr CravEnとB&W社のディジタルルームイコライゼーションの仕事も担当しています。
TrifiEld Productionでは、Ambisonicのサラウンド技術をTVや映画,HD-TVに応用するための研究も行っています。

* ステレオでは何が不足か?
今から60年以前,Alan BlumlEinによって生み出された2-スピーカーによるステレオは、彼の方向性知覚への認識によるところが大きく、今日でも標準的な再生システムとして存在しています。しかしながら、理想の音からは、まだまだかけ離れていると言わざるを得ません。そのひとつは、リスナーの前方60度の開き角で置かれたスピーカーからでは限られた音源方向再現しか得られない点です。
もうひとつの点は、2スピーカーの間で作られる虚音像がじつに不安定だと言う点にあります。リスナーが中心点の軸上から離れるにつれて音源は、リスナーに近いほうへと移動してしまうことです。そのほかにも。音源の定位方法が異なった場合、ステレオ再生では異なった結果となるという現象が挙げられます。例えば、700Hz以上の音声では、それ以下の音声に比べてサウンドイメージが広がってしまうという音像の不一致が生じます。現象そのものは、35年前から知られていますが、同時にたくさんの音が出た場合、聞きずらいとか、長時間聞くと疲れるとか安定した音像が得られないといった結果をもたらしています。

* サラウンド ステレオの問題点はなにか?
ステレオをより改善する試みとして、”クオドラフォニック”が登場しましたが、1970年台初頭で消え去る運命となりました。これは、ステレオに追加したスピーカーでリスナーを取り囲もうというシステムでたしかに方向性再現の改善には有効でしたが、その他のステレオが抱える問題点の解決までは至りませんでした。
1対のスピカーという考えをそのまま継承し、音源をあるポイントに定位させるのに両スピーカー間のレベル差を利用した方法をステレオの場合と同様に行ったために虚音像がもたらす欠点を同様に生じてしまいました。開き角を60度以上にすると”中抜け”を生じてさらに悪くなりますし、リスナーの聞く場所によって定位の安定度が著しく変化してしまうことにもなりました。ステレオペアの一組をフロントへ、もう一組をリアへという初期クオドラフォニックも、その後のフロント3、リア2というスピーカー構成でも正確で安定した方向性を再現するに至りませんでした。

* 自然な方向性再現とは?
我々が体験する自然界の音はすべての方向からやってきた音として認知しています。コンサートホールでのクラシック演奏や、POPグループのライブではどうでしょうか?殆どの音がリスナーの前方からやってきます。しかしホールでは、その壁や天井や床から反射音も生じ様々な方向から我々の耳に到達しています。これらを耳と脳が解析して音として知覚しているわけです。反射音は単純な構成ではなくその構成に応じて耳と脳が情報をデコードしています。
ここで、方向性を持った音源の録音と再生システムを設計しようとした場合の必要条件が明らかになります。


★設置したスピカーからの方向のみでなく全ての音源方向がリスナーに再現できること。
★耳と脳が正確に方向認知可能な情報を十分に含んでいること。


これがAmbisonicが目的とする設計思想の背景です。
理想的には、無限の再生チャンネルとスピーカーがリスナーの回りにあれば正確な再現も物理的に可能でしょう。そのためには、20KHzまでの再生を2メーター以内の範囲で実現するために500万ものチャンネルとスピーカー、8GHzの伝送帯域が必要です。これをより現実的に実現するには、少ない記録、伝送、再生チャンネルそしてリスナーの部屋の状況とスピーカー配置に応じて可能としなければなりません。ここでは、限られた紙面のなかでAmbisonicを理解していただくために3章にわけて説明をしたいと思います。

1章 Ambisonicエンコード技術をここでは、B-フォーマットやUHJエンコードを中心に述べます。
2章 デコーダ設計に必要な音響心理に付いて述べます。
3章 デコーダと各種スピーカー配置について述べたいと思います。

1章 Ambisonic エンコード技術

1-1 B-フォーマット
Ambisonicでは、音源を方向性情報としての利得とチャンネル数に応じたエンコードが行われ、記録、伝送といった媒体に変換されます。
ここで、プロ仕様にのっとったエンコードシステムを「B-フォーマット」と呼んでいます。Fig-1に本文で述べる水平面音場の方向性を表す用語を規定してあります。方向性を持った音源情報θは、真正面から反時計方向の角度として表します。X軸が前後、Y軸が左右、Z軸が上下の方向軸を示します。
B-フォーマットでは、水平面方向の情報を3チャンネルの信号W・X・Yで規定された信号として扱います。θとこれらは、Fig-2に示す関係にあります。
Wの情報は、利得1で全指向、XとYは、2cosθ、2sinθで両指向の特性を表しています。Fig-3には、高さの情報も含んだ関係を示します。
Wは、1でW・X・Zは各々
2X=2cosθcosη
2Y=sinθcosη
2Z=sinη
と示されます。

θは真正面から反時計方向に示す音源方向であり、ηは、水平面から上方向の音源方向を示すことになります。下方向は、-ηとして表されることになります。
W・X・Zにある2はすべてのB-フォーマットにおける平均信号エネルギーが等しいことを示しています。
B-フォーマット信号を創り出すには、パンポットによる定位とマイクロフォンそのものからとの両方が可能です。そのためのマイクロフォンとして「サウンドフィールド マイクロフォン」と呼ばれるモデルがあり、全指向カプセルと3つの両指向マイクカプセルを組み合わせてW・X・Y・Zの4-CH出力を取り出すものです。
Fig-3で示すように、前後、左右、上下に極力位相関係を正確に保つ配置で取り付けなくてはなりません。そのためには、3mm以内の間隔とする必要があり、物理的には大変困難となります。AMS社のサウンドフィールドマイクロフォンでは、実行上同軸となるように、電気的補正を加えた4面体構造のカプセルを採用しています。
B-フォーマット対応のパンポットについては、モノラル信号を3つに分け、X・Yには2倍の利得でsinE/cosinEポテンションポットを、Wには、そのままで信号を送る構成をとれば可能となります。
これを通常のステレオ ミキシングコンソールで行う場合は-CH−モジュールのL/R出力から和/差信号をつくります。L+R=X、L/R=Yとし、WへはAUXバスのひとつを利用して送る構成とすることで対応できます。
専用の機材としてAmbisonicが用意しているのは、「rotation」と「forward dominancE」と呼ぶ2種類のユニットがあります。これらは、B-フォーマット信号W・X・Y・Zを第2B-フォーマットといえるW’・X’・Y’・Z’に以下の関係で変換します。

W’¬=W
X’¬=cosθ’X-sinθ’Y
Y’¬=sinθ’X+cosθ’Y
Z’¬=Z
これはエンコードθ角をθ+θ’に変化させる働きを持ったものと考えて下さい。
この働きを通常のパンポットで作ることもでき、2組のsinE/cosinEステレオ連動タイプを用いて、すでにPrE MixされたB-フォーマット信号から必要なフロントーセンター成分を取り出すといった用途に使うことができます。
もうひとつの「forward dominancE」コントロールは以下の関係となります。

W’¬=1/2(g+g-1)W;8-1/2(g-g-1)X
X’¬= 1/2(g+g-1)X+2-1/2(g-g-1)W
Y’¬=Y
Z’¬=Z

+値gは、1/2〜2の値をとります。例えばg=1であればB-フォーマットそのものですし、それ以外では、g値だけフロント成分が強調され、逆にリア成分は1/g値だけ減少します。
g≧1の場合エンコード信号は、θからθ’’に移動します。その関係は以下のようになります。
cosθ’’=(m+cosθ)/(1+mcosθ)
ここでmは、(g2-1)/(g2+1)で示されます。
「forward dominancE」は、B-フォーマット信号の前後のバランスを変更したい場合に有効な機能です。

1-2 UHJーエンコード マトリックス
B-フォーマットの形で収録した音源はそのままでは、現状の伝送、再生システムに符合しません。家庭ではモノラルで聞く場合もありますし、方式の違いが両立性を損なってはなりません。2-CHのなかにどうやって360度のサラウンドサウンドを取り込むか工夫のいるポイントです。
UHJ(ユニバーサルHJ)エンコードは、2-CHのなかにいかにB-フォーマット信号を取り込むのかの方式であるといえ、2-CH、3-CH,4−CHの階層をもっています。
2-CHでは、360度の水平音場を、3-CHでは、さらに正確な再現を、4-CHでは、上下方向の音場までを家庭で再現することが可能となります。

この考えは、1970年代にBNRDとBBCの共同開発の結果生まれた方式です。が、これには日本のメーカーであるNIPPON-コロムビア社が研究した結果も大いに寄与しています。
(*訳者脚注 用語の由来はあまり明確に述べられた資料がありませんが、1977年のW−ワールド、1974年のW−ワールドに彼が発表している論文などからBNRDでの45-JマトリックスとBBCのマトリックスーHの考えかたにNIPPON-コロムビアが研究したB-MX,T-MXを階層化したU-MXの考えを取り入れてU-HJと呼んでいるのではないかと思われます。)

UHJでは、Fig-4に示すようにこれら2-CH,3−CH,4−CH,を
L/R、T,Qという3種の階層構造として表しています。
L/R信号とUHJとの関係は次のように表すことができます。
Σ=L+R
Δ=L/R
これよりL/R信号は、
L=1/2(Σ+Δ)
R=1/2(Σ-Δ)
として表す事ができます。

2-CHの記録、伝送のなかで十分なサラウンド効果を得るためにUHJでは位相ー振幅マトリックスを採用しています。これは、90度の位相差ネットワーク、例えばオールパスネットワークの片方が音声帯域内で90度位相差を持った回路等で実現することができます。この現象は「HilbErt transform」とも呼ばれています。より具体的には、1次オールパスネットワークを4〜10コ源信号に直列接続するか、Ψ+0。ネットワークに接続するといった方法があります。
アナログ回路で実現するための設計手法は多くの資料がすでにありますし、ディジタルで実現するには、BilonEar-Z変換法によって可能です。
UHJエンコード関係式は、90度の位相進みをj=-1として、

Σ=(0.9397+0.2624cosθ)S
Δ=(-0.3420j+0.7211jcosθ+0.9259sinθ)S
T=(-0.1432j+0.9209jcosθ-1.0000sinθ)S

ここでSは、音源信号を表し、θは、真正面から反時計方向の角度です。
これから両立性を考えてみますと、2CH-ステレオのL/R信号はトータルエネルギー0.68前後の利得で源信号に含まれているフロントとリアは等しく再現されるといえ、モノラルとなった場合はリア成分の利得が5dB減衰されて再現されることになります。
この関係を示したのがFig−5です。図では、θの関数としてL/R/L+R複素数利得をプロットしてあり

Q=Im[(L/R)/(L+R)]が
P=RE [(L/R)/(L+R)]に対する軌跡として表されています。

これからおおよそいえることは、Pがエンコードアジマス角θのステレオ再生時の位置を、Qはその音が持つ位相性「PhasinEss」を表しているということです。Fig-6ではより視覚的にステレオ再生時のバランス分布を示しています。
サラウンドのリア成分は、ステレオになるとフロント成分より後方に広がりを持つ分布となることもここから分かります。
B-フォーマットをUHJとして扱うための関係式は以下のようです。

Σ=0.9397W+0.1856X
Δ=j(ー0.3420W+0.5099X)+0.6555Y
T=j(ー0.1432W+0.6512X)-0.7071Y
Q=0.9722Z
この関係式によってB-フォーマットは、2、3、4-CHのUHJ信号に変換することができます。

実用性という点からいえば今日のステレオ媒体に適応した2-CHのフォーマットが一般的ですが、もしもそれ以上のCHを利用可能な場合3、4-CHフォーマットもマルチチャンネルメディアとして将来市場性があります。特にHD-TVへの応用は効果的といえます。
2-CHのUHJフォーマットであれば、レベル差分岐方式で制作したステレオ音源をB-フォーマット化せずに直接UHJエンコーダで変換することも可能です。その際フロント側には、180度の音場でリア側には150度の音場として変換されます。厳密な変換には「Transcoding」という変換規格がありますが、ほぼ近似した結果を得ることができます。
「TranscodEr」と名ずけた製品を用いる場合、ステレオミキシングコンソールの出力をステレオで2グループ用意し、1ペアをUHJのフロント入力に、残りのペアをリア入力に送ります。
ステレオ音源をそれ以上のUHJフォーマットやB-フォーマットにすることは基本的に無理で、そのためには、1-1で述べたようにB-フォーマット用の録音を行ってください。

2章 方向性に関する音響心理
2-1 定位理論

ここでは、音源の方向定位と品質を左右するAmbisonicデコーダーの設計と解析を行う上で必要な理論について述べます。ここで述べた事が即実戦に役立つわけではありませんが設計段階での考察をする上で良き手がかりとなると思います。現実の状況は、限られた伝送チャンネルと再生チャンネルしかありませんので理論通りのデコーダーを設計するというわけにはいきません。特にリスナーが広いエリアに散らばって聴くといった状況になればさらに困難さを増すことになります。
そうした様々な条件下でいかに製品としてまとめるのかを設計者が考える上でも2章が役立つと思います。より具体的なデコーダーの設計については、3章で述べるつもりです。ここでは、私が15年以上にわたってたずさわってきた結果に基付いた内容を述べてあります。

2-2 仮定と表記法
ここでは、以下の仮定を前提として話しをすすめます。
:リスナーは、n個のスピーカーによってつくられる円周の中心にいるものとします。
:各スピーカーからリスナーには等伝達時間で音が到達。
:スピーカー間隔は、十分あり部屋の壁面反射は無視出来るものとします。
:全てのスピーカーに供給するモノラル音源Sは1-2で述べた90度位相差ネットワークによって得られた複素数を含む利得giでi番目のスピーカーに供給されます。(Fig−7参照)
こうした条件で生じる再生音の方向性と品質について計算します。
その際以下の手法を用います。(もちろんこれ以外にもおおくの考え方があります。)ひとつは、速度理論(VElocity thEory)、ひとつはエネルギー理論(EnErgy thEory)です。

2-3 速度理論
これは、両耳間位相理論による低域の方向性認知についての考え方で、約700Hz以下の周波数で適用する事が出来、この考えの適用上限は2KHzまでです。
まずリスナー位置での全音圧利得は、再生スピーカーn個分の総計値Pとして
P=nΣi=1gi
で示すことができます。ここには、複素数が含まれるのが一般的です。
速度利得はリスナー位置で計算し、cosφisinφiを単位ベクトルとし、i番目のスピーカーの利得をgiとしたベクトル和VX,VYで表されます。ここで
VX=nΣi=1gicosφi
VY=nΣi=1gisinφi
現在の定位を算出するには、この値を音圧Pで割った複素数値となります。
VX/P,VY/P
このなかの実数部は定位方向と音像の安定度を表し、虚数部は位相性「PhasinEss」を表します。これは、実際の音としてスピーカー相互の位相差から生じる不快感として感じられる音となります。
さらに厳密にいえばベクトル長rv≧0で方向角θvが以下の関係で与えられたときrv cosθv=RE[VX/P]
rv sinθv=RE[VY/P]
という関係が成り立ちます。θvは、速度理論に基付くスピーカーからの方向角で
rvは、音像の安定度を示します。単一音源では=1として安定音源と考えます。
rv<1の場合リスナーが頭を動かすと同方向に音像が移動する状態となり、rv>1では逆の現象となります。
実際には、リスナーの両サイド方向に付いてrv=1、前後方向については、rv=1+/ー0.1程度の値があればよいでしょう。
前方を向いたリスナーに対する位相性「PhasinEss」は、
Q=Im[VX/P]で表すことができ、検知出来ない場合Q=0です。
mqmを評価する目安は、0.2以下が優秀、0.5以上では望ましい性能とはいえません。mqmを全方向に渡って良い値とできない場合は、最低前方向について0.2以下を確保するようにして下さい。

2-4 エネルギー理論
この考えは2-3の速度理論のgiをmgim2に置き換えたと考えてもさしつかえありません。この理論で方向性を良く説明できるのは、700Hz〜3.5KHzの帯域で先の速度理論と重複する部分もあります。この理論では、n個のスピーカーから発した音の位相ズレを算出でき、リスナーの最大リスニングエリアや低域での速度理論との整合性を予測することができます。
全エネルギー利得Eは、
E=nΣi=1mgim2
単位ベクトルcosφisinφiとしてエネルギーベクトルEX,EYは、i番目のスピーカーの利得mgim2の総計として

EX=nΣi=1mgim2cosφi
EY=nΣi=1mgim2sinφi
が算出できこれをエネルギー利得Eで割ると方向エネルギーベクトルrEが≧0で、方向角θEとともに以下の関係で導かれます。

rEcosθE=EX/E
rEsinθE=EY/E
θEは、エネルーギー理論での今再生している音の方向を示し、rEは、リスナーが移動した場合の定位の安定度を示し理論値は=1です。mgim2は常に+で音源が単一スピーカーからのみ出ている場合rE=1で、それ以外では<1となります。
2-CHにエンコードされた信号をデコードした場合この値は、1/2以下、3-CHの場合で、0.7071をこえてはなりません。
一般的には、rEは前方のエンコード方向角に対して極力高い値を実現する必要があり、後方については、低めでも構いません。rE>0.6であれば実動作に十分なデコーダー性能を持っていると考えて良く、0.7以上であれば優れた性能といえ、逆に0.5以下であれば優れたデコーダー性能といえません。
リアに関しては、0.3程度でも十分な特性が得られます。
HD-TVに応用する際には、フロントの値として、0.83以上を必要とします。

2-5 Ambisonic デコード方程式
Ambisonicデコーダーには以下の関係が適応され音像定位理論の相違によらず共通にあつかうことができます。

1. 音像定位角は、ベクトル、エネルギー理論とも同一でなければならず、エンコードした角度も近似していなければならず、式ではつぎの関係といえます。
θv=θE=θ

2. 400Hz以下の周波数については、rv=1とし低域の音像定位を確保。
(通常のリビングルームを超えた広い空間では、低めとなります。)
3.「PhasinEss」mqmは、全周波数域で0.2としフロントの音場を広く確保します。
4 400Hz以上の高域では、rEを極力大きく確保しとくにエンコードしたフロントの方向角についてはより留意が必要です。
5 デコーダーからの全再生エネルギーEはエンコード時のアジマスから変化しないようにしないとオリジナルのバランスが変化してしまいます。また、 再生特  性はフラットであるべきです。
6 低域でのmPm2値と高域のエネルギーEとは等しい比率であることが望ましくこの関係がくずれると音声品質が損なわれてしまいます。
例えばmPm2が高いと低域成分が上昇するといった現象となります。

ここに述べた全てを満足するのは容易ではありません。そこでどういった優先で考えると良いかとなりますと、1〜4項をまず優先しつぎに5、そして6という位置付けで考えてよいでしょう。

2-6 音響心理分析
デコーダーの性能を評価するにあたりエンコードアジマスθに対する低、高域での以下のパラメーター抽出が効果的です。
E(dB)、rv、θr、rE、θE、qの理論値と実際のデコーダーのそれとを比較することで、どういった整合性が必要かテストできます。

3章 Ambisonic デコーダー
3-1概論
前章2-5で導きだされた指針から最適なデコーダーの設計を行うことができます。低域、高域で異なる条件が必要という点からデコーダーの最適設計に周波数適応型デコードという考えを採用しています。
ここでは全てのスピーカー配置とそれに応じたUHJデコーダーの詳細を取り上げる訳にいきませんので、ポイントを述べ将来のさらなる最適設計の指針としたいと思います。
全てのAmbisonicデコーダーには周波数適応型マトリックスが採用されています。例えば400Hzを境にして、動作が異なります。もちろんクロスオーバーポイント付近での特性はスムースでなければなりません。

3-2 デコーダー
Fig-8には、水平面音場をエンコードした信号をデコードする各種スピーカー配置を示します。方向性情報としてエンコードされた音源は、位相ー振幅マトリックスを通り、W’,X’,Y’とB’信号となります。
W’:リスナーにたいする音圧信号を
X’,Y’:前後方向、左右方向の速度情報を
B’:W’に対して90度の位相関係をもつ信号でY’にたいして「PhasinEss」成分をコントロールするために使用する成分です。
(デコーダーによっては、この出力を備えていない機種もあります。)

W’,X’,Y’信号は、さらにShelfフィルターを経由し位相関係はそのままで、相対利得が400Hzをクロスポイントとして変化します。X’,Y’は同一で、B’は、「Forward prEfErEncE」と呼ぶフロント成分の位相コントロールボリュームを介してY’信号に合成されます。さらにリスナーが限られたスピーカー配置で聴く際の音場補正1次HPFを通ります。
スピーカー間隔dとして3dB落ちカットオフポイントは、53/dHzで与えられます。周波数は厳密である必要はありません。
音圧信号と速度信号はさらに可変出力マトリックスから再生スピーカーへと出力されます。位相-振幅マトリックスとShelfフィルターは、エンコードにどういった方式を使ったかには関係しますが、再生スピーカーの配置とは、直接関係がありません。逆に,HPFと出力マトリックスは、スピーカー配置と大いに関係します。
Fig-8は長方形や多角形といった様々な再生配置に対応できますが、より複雑な配置では、デコーダーもそれに応じた設計をしなければなりません。
次にはいくつかの設定とデコーダーの関係を述べてみることにします。

3-3 水平面音場再生を目的としたスピーカー配置
W’,X’,Y’,B’として位相-振幅マトリックスから取り出された信号は、HPFと出力マトリックスに送られます。その関係式は以下のようです。

W’’=K1W’
X’’=K2X’
Y’’=K2+K’K3B’
ここでK1K2K3は、NO- 1、2、3と名付けた3種類のShelfフィルターの周波数適応+利得を示しています。0≦K≦0.7迄は、前方信号成分をコントロールし、Fig-9のような四角形スピーカー配置でLB、LF、RF、RBのアジマスφ’は各々、180度-φ、φ、-φ、-180度+φ、となり信号は
Pφ’=1/2(W’’+1/2cosφ’.X’’+1/2sin’φ’.Y’’)

X’’,Y’’にはHPフィルターが入って距離の補正を行っています。
n個の多角形スピーカー配置では、
Pφ=n-1/2(W’’+2cosφX’’+2sinφY’’)となります。

3-4 B-フォーマット デコーダー
水平面音場収録用のB-フォーマット信号W,X,Y,は、W’=W、X’=X、Y’=Y、B’=0という簡易な関係なので非常にシンプルなマトリックスとShelfフィルターで構成でき、その関係は、
低域          高域
K1  0.8165      1.0000
K2 0.8165      0.7071
という関係となります。

3-5 平均水平音場UHJデコーダー関係式

位相-振幅マトリックスに以下の関係が成り立つもので0≦t≦1の値を3-CH方式ではとります。

W’=0.982Σ+0.197j(0.828Δ+0.768tT)
X’=0.419Σ-j(0.828Δ+0.768tT)
Y’=0.187jΣ+(0.796Δ-0.676tT)
B’=-0.694jΣ+0.140(0.828Δ+0.768tT)

3-6 簡易UHJデコード関係式
これは、3個の位相シフトネットワークを用いたのみの簡易な構成で、Fig−10にブロックダイアグラムを示します。

W’=0.982Σ+0.197j(0.828Δ+0.768tT)
X’=0.419Σーj(0.828Δ+0.768tT)
Y’=(0.827Δー0.648tT)
B’=0
0≦t≦、T=1の場合3-CH UHJのShelfフィルター利得は、3ー4で示した値と同じになります。T=0では、2-CH UHJとなりShelfフィルターの利得は次の値となります。

低域           高域
K1   0.661        1.000
K2   1.293        1.000

Fig-10には12個のオペアンプで構成した2-CHデコーダーの例を示します。

3-7 改良型2-CH UHJデコーダー

W’=0.982Σ+0.164jΔ
X’=0.419Σ-0.828jΔ
Y’=0.385jΣ+0.763Δ
B’=ー0.694jΣ+0.116Δ

Shelfフィルター利得はつぎの関係で示されます。

低域            高域
K1  0.646          1.000
K2  1.263          1.000
K3  0.775          1.000

この改良型では前方音場コントロールK’が、0〜0.7の範囲でエンコードした情報がフラット特性となります。Fig-11に具体例を示しますが、簡易回路に比べてより、多機能、高精度となっていることがわかります。

3-8 3/4-CH UHJデコーダー
以下の関係式でW,X,Y,Zの信号がとりだされます。
W=0.982Σ+ 0.197j(0.828Δ+0.768T)
X=0.419Σーj(0.828Δ+0.768T)
Y=0.187jΣ+(0.796Δー0.676T)
Z=1.023Q

このマトリックスは、4個の位相-シフトネットワークを用いて実現できますが、さらに簡易化するにはY信号を
Y2=0.827Δー0.648Tとすることで可能となります。
Fig-12には多面体UHJデコーダーの構成を、13にはスピーカーの配置例を示します。Shelfフィルターは、
低域        高域
K1     0.707     1.000
K2     1.225     1.000
レイアウトコントロールt、出力マトリックスは、使用するスピーカー配置によって異なります。

4まとめ 
1章から3章にわたってAmbisonicの考え方を述べてきました。Ambisonicは限られたCH数のなかで最良のサラウンド音場を記録伝送再生するためのシステムです。ここには、将来のマルチチャンネルメディアを利用したサラウンドをいま以上に優れて取り扱うことのできる素地も含まれています。1985年の研究「1」と最近の論文「HD-TVメディアへのAmbisonicの応用」をお読みになればその進展状況がお分かりになると思います。

資料翻訳 by 沢口真生 1992.6.9 TOKYO JAPAN

「サラウンド制作情報」 Index にもどる
「サラウンド入門」は実践的な解説書です

January 1, 2011

第76回 InterBEE2010 サラウンド関連とラウドネス:実践5.1ch サラウンド番組制作


By Satoshi Inoue 井上 哲



“「InterBEE2010」。オーディオ関係の大きなトピックは「ラウドネス」。同時開催の国際シンポジウムのテーマでもあり、活発な議論がされた。『来年に迫ったラウドネスによる規格策定、ミキシング手法が変わる時代はもう目の前に来ている。我々音声技術者は視聴者をテレビのボリュームから本当に開放できるようになるのだろうか?』(本文より)”
月刊FDI 2011/1(PDF)より

ラウドネス音声基準規格はユーザをリモコンボリュームから解放する切り札になるか?
「実践5.1ch サラウンド番組制作」目次へもどる
「サラウンド入門」は実践的な解説書です