ハイレゾCDの「MQA」?その前に、まずは「ハイレゾ」を理解しよう
数年前なら、オーディオファンなら誰もが「ハイレゾCD」と聞いただけで耳を疑うことでしょう。そもそもハイレゾとはCD以上のスペックを持ち、CD以上の音質を誇る音楽ファイルを意味します。ですから、「CDでハイレゾ」などとはありえないわけで、それは言ってみれば「アナログのCD」が存在するのと同じくらい違和感があることです。
しかし今、オーディオの技術進歩は目覚ましく、CDでもハイレゾを楽しむことが可能になりました。それが「MQA」と言われるものです。
そこで今回は「MQA」のお話をと思ったのですが、その前に皆さまは「ハイレゾ」を正しく理解していますか?ハイレゾを理解していなければMQAの素晴らしさは伝わりません。というわけで、MQAがなぜここまで注目されているのかを正確に認識するために、今回は「ハイレゾ」についておさらいをしたいと思います。
1.ハイレゾよりデジタルより、アナログ
1-1.音はアナログ
生の音声はアナログです。人の声もピアノの演奏も、すべて音はアナログです。そして、それをどれほど忠実に再現できるか。それがオーディの歴史であり、今なお続いているオーディオメーカーの挑戦です。
まず最初に誕生したのはアナログ録音でした。音は波形で表すことができますが、アナログ録音とはその波形をそのまま記録する方法です。波形をそのまま記録するので、もちろん理論上は音質は最高です。しかし、アナログデータは再現するプロセスにおいて劣化が生じ、ノイズが混じってしまいます。
また、レコードやカセットテープなどアナログの記録媒体に録音しても、経年により必ず変質します。レコードならレコード針の摩耗によるノイズや、材質である塩ビ(ポリ塩化ビニル)の経年劣化。カセットテープも同様で、再生ヘッドによる摩耗やテープの伸び、あるいは切断は避けられません。
こうした「劣化」という課題を解決するため、デジタルオーディオが登場します。
1-2.デジタル化とは、アナログに近づけること
上述の通り、音は波形で表せます。そして、アナログ音は一本の曲線で連続的な変化として表せますが、デジタルは連続から切り離され、離散的です。ですから、どうしてもデジタル録音では生のアナログ音と全く同じように記録することは不可能です。
いくら高性能なコピー機でも、手書きの絵とまったく同じにコピーはできません。
それと同じです。
要するに、音のデジタル化とは、どれだけアナログ音に近づけることができるか。
それが一番の課題なのです。
2.CDの限界
2-1.解像度
連続的な変化を離散的な手法で再現するには、その精密さが重要となってきます。つまり解像度です。
映像の場合では、高解像度という言葉はよく耳にすると思います。解像度が高くなればなるほど「美しい画像」になります。
いま最も普及しているテレビはフルハイビジョン(2K)です。解像度は1920×1080ピクセル。これが数年後には4Kや8Kが主流になるわけですが、4Kとはフルハイビジョンの4倍の3840×2160ピクセルで、8Kは7680×4320ピクセルです。そして、解像度が高くなればなるほど映像は鮮明になり美しくなります。家電売り場のテレビコーナーに行けば、フルハイビジョンの2Kと4Kや8Kの違いは一目瞭然でしょう。
音も同様です。解像度が高くなればなるほど音質は良くなります。
2-2.サンプリング周波数と量子化ビット
音の解像度はサンプリング周波数と量子化ビットにより決まります。
本来、自然の音はアナログです。したがって、量の変化は連続的に表されます。しかし、デジタル化とは量を離散的に表すことなので、どの情報量で原音を切り出すかを決める必要があります。そして、その単位が「サンプリング周波数(kHz)」と「量子化ビット数(bit)」で、サンプリング周波数が大きければ大きいほどより高い音域までが再現でき、量子化ビット数が大きければ大きいほどより小さく細かい音まで再現できます。
ちなみに、CDはサンプリング周波数が44.1kHz、量子化ビット数が16ビットです。
2-2-1.サンプリング周波数
サンプリング周波数とは、単位時間あたりに標本(サンプル)を採る頻度のことです。音のアナログ波形をデジタルデータに変換するために必要な処理であり、「標本化」とも言われています。単位には一般的にHzが使用されますが、sps (sample per second) が用いられることもあります。
CDを例に見てみます。CDはサンプリング周波数が44.1kHzです。したがって、1秒間で44,100回の速さで記録する計算になります。
また、アナログ信号をデジタル信号に変換する際、アナログ信号に含まれる最大周波数の2倍以上の周波数で信号をサンプリングしないと、もとのアナログ信号の連続波形は再現できません。
これは標本化定理と呼ばれており、1928年にハリー・ナイキストによって予想され、1949年にクロード・E・シャノンと日本の染谷勲によってそれぞれ独立に証明されたため、「ナイキスト定理」や「ナイキスト・シャノンの定理」あるいは「シャノン・染谷の定理」とも呼ばれています。
そのため、CDのサンプリングレートは44.1kHzですから、22.05kHzまでの音声波形は損なわずにサンプリングできる計算になります。
2-2-2.量子化ビット数
サンプリングにより1秒間で何回記録するのかが決められたら、次はその値をどんな精度で記録するかを決めます。それが量子化ビットです。ビットとはコンピュータが扱う情報の最小単位です。そして、1ビットで2つの状態の表現が可能ですから、1ビットで量子化を行えば振幅は2段階、2ビットなら4段階となり、ビット数が増えるに従い細かく振幅を表わせます。
そして、CDの量子化ビット数は16ビットですから、2の16乗の65,536段階の細かさで記録することになります。
2-3.CDでは再現できない領域
CDのサンプリング周波数は44.1ですから、22.05kHzまでの音声波形を損なわずにサンプリングできることは先述の通りです。しかし、言い換えれば22.05kHzより上はサンプリングできないことになります。
また、最近でこそ、そのぎりぎりの22kHzまで音が出せるようになってきましたが、古いものになると20kHz前後のカットオフ特性が選ばれることが多く、最低18kHzあたりから急激に減衰し、21kHz付近ではほぼ音は出ませんでした。
しかし、生の音は限界が22.05kHzではありません。
つまり、CDは音の解像度を抑えて記録しているので、音声の情報が全て入っているわけではないのです。
3. ハイレゾリューション
3-1.ハイレゾとCDの違い
ハイレゾとは「ハイレゾリューション=High(高) Resolution(解像度)」の略です。直訳すれば「高解像度」です。
CDにおいては、サンプリングレートは44.1kHz、ビット数は16bitと決められていて、その規格に合うように感知しづらい音の情報を間引いています。ですから、音の太さや繊細さ、あるいは奥行きや圧力、それに表現力といったものは、CDと生音とではどうしても異なります。アーティストの息づかいやライブの空気感、あるいはディテールやニュアンスは感じ取りづらいものです。
しかし、ハイレゾならこうした情報を間引く必要がないため、より原音に近い音が聴けます。実際、情報量は桁違いです。ハイレゾの情報量は、実にCDの6.5倍ほどなのです(サンプリングレートが192kHz/24bitのハイレゾ音源の場合)。これはアーティストがレコーディングスタジオで聴いている音質と、ほぼ同等のクオリティーといわれています。
では、ハイレゾとはどのように定義されているのでしょう。
実は二つの団体がそれぞれ定義しています。
3-2.JEITAによる定義
3-2-1.JEITAとは
JEITAは一般社団法人電子情報技術産業協会(Japan Electronics and Information Technology Industries Association)の略称です。
2000年11月1日に日本電子工業振興協会(Japan Electronic Industry Development Association、略称JEIDA、ジェイダ)と日本電子機械工業会(EIAJ)が統合して誕生しました。
歴代の会長には「株式会社日立製作所」「松下電器産業株式会社(パナソニック株式会社)」「三菱電機株式会社」「日本電気株式会社」「ソニー株式会社」「株式会社東芝」「富士通株式会社」「シャープ株式会社」から選出されている団体です。
3-2-2.JEITAによる定義の背景
JEITAは2014年3月26日、「ハイレゾオーディオの呼称について」を発表します。そして、これがJEITAによる「ハイレゾの定義」となるわけですが、その背景には、それまでは「ハイレゾ」については特に明確な基準がなく、各社が自社製品の仕様に応じてそれぞれの解釈により「ハイレゾ」という言葉を使用していたことがあります。そこで、44.1kHz や 48kHz、96kHz、192kHz などの音源が混在する中で、マーケットの混乱を避けるためにJEITAが定義しました。
3-2-3.詳細
JEITAの定めた「ハイレゾ」は、デジタルオーディオに用いられるPCM方式のデータにおける定義です。
PCMとは、音声などのアナログ信号をデジタルデータに変換する方式の一つです。信号を一定時間ごとにサンプリングし、規定のビット数の整数値に量子化して記録します。
JEITAの定義は次の通りです。
「ハイレゾオーディオ」と呼称をする場合、”CDスペックを超えるディジタルオーディオ“であることが望ましい」
ちなみに、JEITA のいうCDとは、CDが採用している44.1kHz /16bitばかりでなく、DVDやDATが採用する48kHz/16bit の音源も含みます。
そして、LPCM換算で「サンプリング周波数」と「量子化ビット数」のいずれかがCDスペックを超えていればハイレゾオーディオに該当するも、いずれかがCDスペック未満であればハイレゾには該当しないとしています。
つまり、44.1kHz/24bit ならサンプリング周波数は同じでも量子化ビット数がCDスペックを上回るのでハイレゾになりますが、96kHz /12bit では、サンプリング周波数はCDスペックを超えますが量子化ビット数が足らないためハイレゾではないことになります。
なお、JEITAは以下のような例をあげて説明しています。
(例)
・48kHz/24bit → ハイレゾオーディオ(サンプリング周波数はCD同等で、量子化ビット数が高い))
・96kHz/16bit → ハイレゾオーディオ (サンプリング周波数はCDより高く、量子化ビット数は同等)
・96kHz/24bit → ハイレゾオーディオ(サンプリング周波数も量子化ビット数もCDより高い)
・48kHz/16bit → 非ハイレゾ(サンプリング周波数も量子化ビット数もCDと同等)
・96kHz/12bit → 非ハイレゾ(サンプリング周波数はCDより高いが量子化ビット数が低い)
・32kHz/24bit → 非ハイレゾ(量子化ビット数はCDより高いがサンプリング周波数が低い)
3-3.日本オーディオ協会による定義
3-3-1.日本オーディオ協会とは
日本オーディオ協会は、1952年10月4日、フランス分各社の中島健蔵や、盛田昭夫とともにソニーの創業者の一人である井深大の尽力により設立された一般社団法人です。英語表記の「Japan Audio Society」から「JAS」との略称でも呼ばれています。
国内最大級のオーディオの祭典「OTOTEN」を主催しています。
3-3-2.詳細
日本オーディオ協会の定義では、JEITAの定義を原則支持しています。
その上で、さらに独自に「アナログ信号に関わること」「デジタル信号に関わること」「聴感に関わること」を追加して定めています。
a)アナログ信号に関わること
録音マイクの高域周波数性能において、40kHz以上が可能であること。
アンプ高域再生性能において、40kHz以上が可能であること。
スピーカー・ヘッドホン高域再生性能において、40kHz以上が可能であること。
b)デジタル信号に関わること
録音フォーマットは、FLACまたはWAVファイル96kHz/24bitが可能であること。
入出力I/Fは、96kHz/24bitが可能であること。
ファイル再生が、FLAC/WAVファイル96kHz/24bitに対応可能であること。 ただし、自己録再機はFLACまたはWAVのどちらかのみでもハイレゾとする)
信号処理は、96kHz/24bitの信号処理性能が可能であること。
デジタル・アナログ変換においては、96kHz/24bitが可能であること。
c)聴感に関わること
生産または販売責任において、聴感評価が確実に行われていること。
各社の評価基準に基づき、聴感評価を行い「ハイレゾ」に相応しい商品と最終判断されていること。
3-3-3.ロゴ
日本オーディオ協会は、協会が定義するハイレゾの基準を満たした商品については「ハイレゾロゴ」の使用を認めています。当初は、推奨ロゴマークは3種類ありました。ソニー、パナソニック、JVCケンウッドの3種類です。
しかし現在はソニーが譲渡したロゴマークにほぼ統一されています。
4.ハイレゾフォーマット
ハイレゾオーディオにはいくつかのフォーマットが存在します。主な形式は「WAV」「AIFF」「FLAC」「ALAC」「DSD」などです。
4-1.WAV
WAVはマイクロソフトとIBMにより開発されたフォーマットです。拡張子は「.wav」。
リニアPCMのコンテナフォーマットとして普及していて、ハイレゾ配信サイトでも豊富な採用実績があります。リニアPCMは非圧縮のためファイルサイズは大きくなりますが、デコード処理が不要です。そのため、ほとんどのデジタルオーディオ機器で再生は可能ですが、音源情報(アーティスト名やアルバム画像)などの表示は得意ではないという弱点があります。
サンプリング周波数が352.8kHz(44.1KHzの8倍)あるいは384KHz(48kHzの8倍)、かつ量子化ビット数が24bit以上のリニアPCMは、特に「DXD」(Digital eXtreme Definition)とも呼ばれています。当初はDSDが編集に適さないため、SACDの制作を目的としたフォーマットでしたが、現在では上述の通り配信用フォーマットとしても非常に普及しています。
4-2.AIFF
AIFF (Audio Interchange File Format) は、アップルにより開発されたフォーマットです。WAV形式と同じく非圧縮で、性格も似ていてコンテナフォーマットです。
拡張子は、「.aiff」「.aif」「.aifc」「.afc」。
4-3.FLAC
FLAC(Free Lossless Audio Codec)は、ハイレゾ音源を代表する形式です。Losslessとありますが、非圧縮ではありません。ただし、圧縮されたデータを元に戻すせば、圧縮前のデータと全く同じになる可逆圧縮方式が採用されています。
オープンソースのフリーソフトウェアとして開発、配布。また、使用時にロイヤリティも発生しないことから非常に普及しており、ハイレゾ対応のオーディオ機器であればほぼ確実にサポートされています。そのため、どのフォーマットを選ぶか迷った時には、この「FLAC」を選んでおけばまず失敗はありません。
拡張子は「.flac」。
4-4.ALAC
ALAC(Apple Lossless Audio Codec)は、Appleが開発したフォーマットです。こちらもFLAC同様Losslessを含みますが、元の音のデータを全く損なわない可逆圧縮方式が採用されています。
ここ数年でALACをサポートするオーディオ機器は増え、一部のハイレゾ配信サイトでも取り扱いはあります。しかし、Apple製品では手厚くサポートされているものの、FLACの方がより多くのソフト/ハードにサポートされているのが現状です。
拡張子は、「.mov」「.m4a」「.alac」。
4-5.DSD
DSD(Direct Stream Digital, DSD)は、SACD(スーパーオーディオCD)がアナログ音声をデジタル信号化する際の方式です。ソニーとフィリップスにより命名されました。ここ数年で対応ハード/ソフトが増え、ハイレゾ配信サイトにおける取り扱いも急増しています。
FLACなどとは全く異なる概念でデジタル化されるため、よりアナログっぽい音の再現が可能と言われています。
日本オーディオ協会にもハイレゾとして取り扱われている形式で、拡張子は「.dsd」「.dsf」。
4-6.ハイレゾ相当「DSEE」
DSEE(Digital Sound Enhancement Engine)は、ソニーが開発した非可逆圧縮音楽ファイル用の音質向上技術です。MP3、ATRAC3、AAC、WMAなどの非可逆圧縮音楽ファイルを解析し、圧縮によって失われた高域の音を予測して自動補完。音質をアップスケーリングして、ハイレゾ相当の音を実現します。
しかし、非可逆圧縮をアップスケーリングしていることから、厳密にはハイレゾではなく、「ハイレゾ相当」と表現されます。
DSEE HXも同様です。
5.まとめ
いま最も普及しているフルハイビジョンのテレビは2K(1920×1080ピクセル)です。これが数年後には4K(3840×2160ピクセル)や8K(7680×4320ピクセル)へ進化するわけですが、これはテレビの高解像度化を意味していて、解像度が上がれば上がるほど映像の美しさが際立ちます。
音質も同様で、解像度が上がれば上がるほど音質は良くなります。そして、ハイレゾとは「ハイレゾリューション=High(高) Resolution(解像度)」の略で、直訳すれば「高解像度」です。つまり、音の解像度を高めているから「ハイレゾ」の音質はCDより良いのです。
ハイレゾの情報量はCDとは桁違いです。
音の解像度はサンプリング周波数と量子化ビットにより決定されますが、CDにおいてはサンプリングレートは44.1kHz・ビット数は16bitと決められています。一方、ハイレゾの情報量は、サンプリングレートが192kHz/24bitのハイレゾ音源の場合、およそCDの6.5倍です。
これが、ハイレゾ音源の音が美しい理由です。
ちなみに、ハイレゾの定義はJEITAおよび日本オーディオ協会は「ハイレゾオーディオ」と呼称をする場合、”CDスペックを超えるディジタルオーディオ“であることが望ましい」としています。
つまり、サンプリング周波数が44.1kHzあるいはビット数が16bit以上(ただし、サンプリング周波数またはビット数がCDのスペックを下回ってはならない)がハイレゾに値するというわけです。
さて、これを踏まえて、次回は新しいハイレゾ「MQA」についてお話しさせていただきます。
ご期待ください。