音声圧縮 - 暇つぶしWikipedia

音声圧縮

音声圧縮（おんせいあっしゅく）あるいはオーディオ圧縮（オーディオあっしゅく、英語: audio compression）とは、音声ファイルのサイズを削減する目的で設計されたデータ圧縮の一種である。音声圧縮アルゴリズムは、「オーディオコーデック」として実装される。汎用データ圧縮アルゴリズムは音声データには適さず、オリジナルの87%以下に圧縮できることがほとんどなく、リアルタイムの再生にも適さない。そのため、音声向けの可逆圧縮アルゴリズムや非可逆圧縮アルゴリズムが生み出された。非可逆圧縮アルゴリズムは圧縮率が非常に高く、一般の音響機器によく使われている。

可逆でも非可逆でも、情報の冗長性を削減するために、符号化手法、パターン認識、線形予測などの手法を駆使して、圧縮を行う。音声品質は若干落ちるが、高音の聴き取り辛さやマスキング効果などにより多くのユーザーはその違いに気づかず、必要なデータ量は大幅に削減される。例えば、1枚のコンパクトディスクで、非圧縮の音楽データなら1時間しか記録できないが、可逆圧縮すれば約2時間分を記録でき、MP3のような非可逆圧縮なら約7時間分の音楽を記録できる [注 1]。

音声スペクトルに着目した圧縮方法とは別に、PCMの量子化を工夫する方法（折線量子化，対数量子化，DPCM，ADPCM）で時系列のまま圧縮する方法もあり、実装の単純さや処理の軽さから古くはこちらが主流であったが、圧縮率がさほど高くないと言う問題点があった。量子化の工夫で圧縮を掛けるPCMはノンリニアPCMと呼ばれる。中でも折線量子化は世界初のPCM録音機が実用化された1960年代末には使われていた非常に古い方法である [1][2][3]。

さらに、アナログの音声信号に対してプリエンファシスやコンパンディングを用いて圧縮を掛ける方法も存在し、ダイナミックレンジが極めて小さい無線通信機や電話などに用いられている他、音楽用途にもドルビーノイズリダクションシステム、dbxノイズリダクションなどのシステムが実用化されている。プリエンファシスやコンパンディングはデジタル音声圧縮でも使われる事がある。
可逆音声圧縮

年々記録媒体のコストが低下し、またインターネットの通信速度も向上しているため、音声ファイルを永久的に保管するための形式として、Monkey's Audio、FLAC、Shorten などの可逆圧縮フォーマットがよく使われるようになってきている。特にレコーディング・エンジニアやオーディオマニアが可逆圧縮フォーマットをよく使う。圧縮率は汎用の可逆データ圧縮と同程度（オリジナルの50%から60%）である [4]。Blu-ray DiscやHD DVD向けに Dolby TrueHD のような可逆圧縮フォーマットも登場している。

音声の全てのデータを保持しつつ、大幅な圧縮率を達成することは困難である。そもそも、実世界で録音された音声の構造は非常に複雑で、圧縮技法のひとつであるパターンの繰り返しの検出が困難である。画像の場合もコンピュータグラフィックスよりも実世界の写真の方が圧縮しにくいのと同じである。ただし音声の場合、コンピュータが生成した音も非常に複雑な波形を含み、多くの圧縮アルゴリズムでは圧縮が難しい。これは、音声波形が時系列のまま単純化するのが難しく、人間の耳で行われているように周波数領域に（必要なら可逆に）変換してやる必要があるためである。

また、音声の標本化された値は非常に素早く変化するため、汎用のデータ圧縮アルゴリズムでは音声をうまく扱えず、同じバイト列が何度も繰り返されることもほとんどない。[-1 1]フィルタによる畳み込みは、スペクトルを若干ホワイトノイズ化（平坦化）する傾向があり、そのため可逆圧縮のエンコーダで利用される。その場合、デコーダが逆の操作を行って元の信号を復元する。FLAC、Shorten、TTA といったコーデックは、信号の周波数スペクトルを推定するのに線形予測法を用いる。エンコーダでは、その予測の逆を行って周波数スペクトルのピークを小さくすることでホワイトノイズ化し、デコーダは線形予測法をそのまま使って元の信号を再構築する。

可逆オーディオコーデックは音質には問題がないため、有用性は以下の観点で判断される。

圧縮・伸張の速度

Size:48 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef