音声圧縮 - 暇つぶしWikipedia

音声圧縮

音声圧縮（おんせいあっしゅく）あるいはオーディオ圧縮（オーディオあっしゅく、英語: audio compression）とは、音声ファイルのサイズを削減する目的で設計されたデータ圧縮の一種である。音声圧縮アルゴリズムは、「オーディオコーデック」として実装される。汎用データ圧縮アルゴリズムは音声データには適さず、オリジナルの87%以下に圧縮できることがほとんどなく、リアルタイムの再生にも適さない。そのため、音声向けの可逆圧縮アルゴリズムや非可逆圧縮アルゴリズムが生み出された。非可逆圧縮アルゴリズムは圧縮率が非常に高く、一般の音響機器によく使われている。

可逆でも非可逆でも、情報の冗長性を削減するために、符号化手法、パターン認識、線形予測などの手法を駆使して、圧縮を行う。音声品質は若干落ちるが、高音の聴き取り辛さやマスキング効果などにより多くのユーザーはその違いに気づかず、必要なデータ量は大幅に削減される。例えば、1枚のコンパクトディスクで、非圧縮の音楽データなら1時間しか記録できないが、可逆圧縮すれば約2時間分を記録でき、MP3のような非可逆圧縮なら約7時間分の音楽を記録できる [注 1]。

音声スペクトルに着目した圧縮方法とは別に、PCMの量子化を工夫する方法（折線量子化，対数量子化，DPCM，ADPCM）で時系列のまま圧縮する方法もあり、実装の単純さや処理の軽さから古くはこちらが主流であったが、圧縮率がさほど高くないと言う問題点があった。量子化の工夫で圧縮を掛けるPCMはノンリニアPCMと呼ばれる。中でも折線量子化は世界初のPCM録音機が実用化された1960年代末には使われていた非常に古い方法である [1][2][3]。

さらに、アナログの音声信号に対してプリエンファシスやコンパンディングを用いて圧縮を掛ける方法も存在し、ダイナミックレンジが極めて小さい無線通信機や電話などに用いられている他、音楽用途にもドルビーノイズリダクションシステム、dbxノイズリダクションなどのシステムが実用化されている。プリエンファシスやコンパンディングはデジタル音声圧縮でも使われる事がある。
可逆音声圧縮

年々記録媒体のコストが低下し、またインターネットの通信速度も向上しているため、音声ファイルを永久的に保管するための形式として、Monkey's Audio、FLAC、Shorten などの可逆圧縮フォーマットがよく使われるようになってきている。特にレコーディング・エンジニアやオーディオマニアが可逆圧縮フォーマットをよく使う。圧縮率は汎用の可逆データ圧縮と同程度（オリジナルの50%から60%）である [4]。Blu-ray DiscやHD DVD向けに Dolby TrueHD のような可逆圧縮フォーマットも登場している。

音声の全てのデータを保持しつつ、大幅な圧縮率を達成することは困難である。そもそも、実世界で録音された音声の構造は非常に複雑で、圧縮技法のひとつであるパターンの繰り返しの検出が困難である。画像の場合もコンピュータグラフィックスよりも実世界の写真の方が圧縮しにくいのと同じである。ただし音声の場合、コンピュータが生成した音も非常に複雑な波形を含み、多くの圧縮アルゴリズムでは圧縮が難しい。これは、音声波形が時系列のまま単純化するのが難しく、人間の耳で行われているように周波数領域に（必要なら可逆に）変換してやる必要があるためである。

また、音声の標本化された値は非常に素早く変化するため、汎用のデータ圧縮アルゴリズムでは音声をうまく扱えず、同じバイト列が何度も繰り返されることもほとんどない。[-1 1]フィルタによる畳み込みは、スペクトルを若干ホワイトノイズ化（平坦化）する傾向があり、そのため可逆圧縮のエンコーダで利用される。その場合、デコーダが逆の操作を行って元の信号を復元する。FLAC、Shorten、TTA といったコーデックは、信号の周波数スペクトルを推定するのに線形予測法を用いる。エンコーダでは、その予測の逆を行って周波数スペクトルのピークを小さくすることでホワイトノイズ化し、デコーダは線形予測法をそのまま使って元の信号を再構築する。

可逆オーディオコーデックは音質には問題がないため、有用性は以下の観点で判断される。

圧縮・伸張の速度

圧縮率

対応するビット深度・サンプリングレート・チャンネル数

ソフトウェア・ハードウェアでの採用状況

誤り訂正能力

データ上の劣化は存在しないが、デコーダの性能などによって音質の劣化が発生し得る。オーディオマニアの間ではスーパーオーディオCDの圧縮を好まない傾向があり、ユニバーサルミュージックの「SACD?SHM仕様?」など非圧縮にこだわったソフトがリリースされている [5]。
非可逆音声圧縮圧縮前と各種非可逆圧縮を施した同じ音楽のスペクトログラムの比較。非可逆であるため圧縮前と圧縮後でスペクトルが異なっている。ただし、だからといって音質の低下が判別できるとは限らない。

非可逆音声圧縮は、様々な場面で使われている。MP3プレイヤーやコンピュータのような直接的な利用だけでなく、DVDビデオでの音声圧縮、デジタルテレビでの音声圧縮、インターネット上のストリーミングメディア、衛星ラジオやケーブルラジオなどで使われている。非可逆圧縮は重要でないデータを捨てているため、可逆圧縮よりも遥かに圧縮率が高い（オリジナルの5%から20%）[6]。

非可逆音声圧縮の開発には知覚心理学の一部である音響心理学の成果が応用されているため知覚符号化の名称で呼ばれる。人間の聴覚は全ての音声データを認識しているわけではない。多くの非可逆圧縮ではまず、知覚されないと思われる音、すなわち人間の耳には聞こえにくい音を識別し、知覚的冗長性を減らす。典型例としては、高周波数成分や大きな音と同時に鳴っている小さな音などである。それらの音は正確度を減じて符号化されるか、全く符号化されない [7]。

このような聞こえない音の除去はビット数削減効果はそれほど大きくない。非可逆圧縮での圧縮の大部分はそれとは相補的なノイズシェーピングという現象によるものである。信号を符号化するビット数を減らすと、S/Nが悪化する。音響心理学に基づいた非可逆圧縮では、このような増大したノイズを知覚されないように「隠す」技法が重要である。これは例えば、高周波数成分に割り当てるビット数を削減することでなされる。そのようにするのは、元の情報に高周波数成分が少ないからではなく、人間の耳が低い周波数しか知覚できないからである。それによってノイズが隠蔽され、知覚されなくなる。

知覚モデルに基づく冗長性削減でも十分な圧縮率が得られない場合、さらなる非可逆圧縮が必要となる。音源によっては、そうしても音質の低下を感じないこともある。例えば、人間の話し声は音楽よりも圧縮可能である。非可逆圧縮の多くはデータレートを調整・設定可能であり、例えばビット毎秒で表現する。さらなる圧縮においても人間の聴覚モデルに基づいて、音の重要性を判断して圧縮していく。実際の聴覚モデルは様々で、それぞれ特定の用途に特化している。
符号化手法
 変換領域

知覚的に不要な音声信号内の部分を特定するため、多くの非可逆圧縮アルゴリズムでは時間領域の標本波形を変換領域にコンバートするため、修正離散コサイン変換 (MDCT) などを使う。一般に周波数領域に変換すると、周波数成分ごとに可聴性を考慮してビットが割り当てられる。周波数成分の可聴性は、まずマスキングしきい値を計算し、それ未満の音は人間には知覚されないと判断する [8]。

マスキングしきい値の計算には、最小可聴値と同時マスキングの原理を使い、場合によっては経時マスキングも利用する。等ラウドネス曲線を使って各周波数成分の重み付けも行うことがある。このような脳も含めた人間の聴覚モデルに基づいた現象群を心理音響モデルと呼ぶ [9]。
時間領域

別の非可逆圧縮方式として、線形予測符号 (LPC) が人間の話し声（スピーチ）向けに使われている。この場合、音源（LPCに基づいた人間の話し声など）を量子化する前にホワイトノイズ化（平坦化）を行う。
応用

非可逆圧縮アルゴリズムの性質から、伸張と再圧縮を繰り返すたびに音質が低下する。従って、編集過程で一時保存する際の方式としては適切でない。一方、リスニングのみの目的で利用する場合には、それなりの音質を保ったまま劇的にファイル容量を削減できる。

Size:48 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef