MPEG-4 Part 3(エムペグフォー パート 3)は Moving Picture Experts Group(MPEG)が規格化した国際標準である MPEG-4 の第3部で、オーディオ符号化方式が定義されている。一般的にはMPEG-4オーディオ(MPEG-4 Audio)の名称で呼ばれ、JISではMPEG-4音響の訳語が使われる[1]。
MPEG-4オーディオの規格は ISO/IEC 14496-3 で定義され[2][3]、最初の規格は1999年に発行された[4]。ISO/IEC 14496-3 の翻訳として JIS X 4332-3(音響映像オブジェクトの符号化?第3部:音響)がある[1]。
MPEG-4オーディオは多くのオーディオ符号化方式を集めたもので、音声や音楽、自然な音や合成した音など様々な信号を扱うことができ、非常に低いビットレートから全く劣化の無い高ビットレートまで広い範囲のビットレートと音質での符号化方式をサポートしている。広く知られている MPEG-4 AAC の他に、ロスレス圧縮を行う MPEG-4 ALS や MPEG-4 SLS、MPEG-4 CELP、TwinVQ、HVXC(Harmonic Vector eXcitation Coding)、HILN(Harmonic and Individual Lines plus Noise)、TTSI(Text To Speech Interface)など様々な符号化技術が規格化されている。
MPEG-4 は、それ以前の様々な規格と異なり特定のアプリケーションをターゲットとしたものではなく、蓄積、インターネット通信、携帯電話、テレビ電話、デジタル放送など全てのアプリケーションで使えることを目的としている。MPEG-4オーディオは性質の異なるツールの組み合わせからなり、アプリケーションの内容に応じて組み合わせて使えるようになっている。 ISO/IEC の Moving Picture Experts Group によるオーディオ符号化標準の制定作業は1988年から始まり[5]、ビデオCDなどの蓄積系メディアを対象とした MPEG-1 、放送・通信・映画などでの高音質オーディオを対象とした MPEG-2オーディオなどが規格化された。 MPEG-4 は元々モバイル機器向けの超低ビットレートの符号化規格として1993年夏に制定作業が始まった[6]。その後対象とする範囲が拡大され、将来の様々なアプリケーションに対応可能な一般的な符号化標準になった。 以前の規格である MPEG-1 や MPEG-2オーディオとの考え方の違いは以下の通りである[3]。 以前の規格は符号化方式のみを定義していたが、MPEG-4 ではファイル形式や複数のデータの多重化形式を定義している。 また、モバイル機器などのため、超低ビットレートの符号化(2 kbps? の音声符号化、4 kbps? の音楽符号化)や誤り耐性の機能がサポートされている。テキストベースの情報から音声や音楽を合成する合成音の機能を用いればさらに低いビットレートを実現できる。 さらに、要求される QoS に応じ複数のビットレートでデータを取り出せるスケーラビリティ機能がある。 異なった要素技術はオーディオオブジェクトとして組み合わせて使うことができ、様々なアプリケーションの要求に応じられる柔軟性を持つ。 MPEG-4オーディオは、様々なアプリケーションに対応するため、異なった多くの要素技術(ツール)から構成されている。 ツールは大きく分けて、人間の音声のみを扱う音声符号化ツールと、音楽など一般的なオーディオ信号の非可逆圧縮を行うオーディオ符号化ツール、ロスレス圧縮を行うロスレスオーディオ符号化ツール、再生側で音楽合成を行うの合成ツール、及びそれ以外の各種ツールに分類できる[3]。
概要
保存、転送、多重化の形式の定義
低ビットレート符号化のサポート
複数のツールの組み合わせによるオブジェクトベースの符号化
合成音(音声/音楽)のサポート
誤り耐性の機能
スケーラビリティの機能
詳細
音声符号化ツール(Speech coding tools)
自然音声符号化ツール(Natural speech coding)- 人間の音声を扱うツール