MPEG-4(エムペグフォー、ISO/IEC 14496)は、動画・音声全般をデジタルデータとして扱うための規格のことである。MPEG-1やMPEG-2と同様、システム、ビジュアル(MPEG-1/-2ではビデオと呼ぶ)、オーディオ、ファイルフォーマットの各技術から構成される。しかしながら、一般的には「MPEG-4」と呼ぶ場合、動画の符号化方式を記述したビジュアル部分だけを指すことが多い。
規格が広範なことが「MPEG-4とは何か」という説明を難しくさせている上に、ビジュアル、あるいはファイルフォーマットの一部の規格を利用したものも単に「MPEG-4です」と説明されることが多く、使われ方、意味のとられ方が混乱している用語でもある。
なお、規格化を行っているMoving Picture Experts GroupではMPEG-4を最後の動画/音声符号化の規格とする意向であり、現在では3次元コンピュータグラフィクスや音声合成などを含む大変広範な規格になっている。MPEG技術は、各技術毎にパート(Part)と呼ばれる規格が作成され、技術が採用/規格化されるたびにパートが増える。2003年にH.264がMPEG-4 Part 10 Advanced Video Codingとして規格化されるなど[1]、現在もなお追加・拡張が継続されている規格である。 MPEG-4(ISO/IEC 14496)自体は、動画・音声全般を扱う多様なマルチメディア符号化フォーマットを規定している。これらは以下に示す複数の「部(Part)」に分れて標準化されている。MPEG-4の各部は、ISO/IEC 14496を翻訳したJIS X 4332の各部と対応する。なお、第31部以降は現在開発中である。 動画には第2部(1999年制定)と第10部(2003年制定)があることに注意する。一般にMPEG-4動画(またはMPEG-4ビジュアル)といえば第2部を指すことが多く、第10部は第2部と区別するために、MPEG-4 AVC と呼ばれることがある。MPEG-4は動画の符号化規格と呼ばれることもあるが、実際に規定されているのは復号のみであり、符号化は規定していない。 部ISO/IEC規格番号名称概要
規格の構成
1ISO/IEC 14496-1
2ISO/IEC 14496-2
マルチメディアデータをファイルや記録メディアに保存したり、ネットワーク上で伝送するには、動画と音声毎に別々に符号化した符号化データの統合(多重化)と同期のための仕組みが必要となる。この多重化方式を規定するものがシステムである。なお、システムによって多重化される以前の動画像や音声のバイナリデータをエレメンタリストリーム(ES: Elementary Stream)と呼ぶ。
動画像と音声のエレメンタリストリームを多重化するという目的においては、MPEG-1やMPEG-2のシステムに近いといえるが、MPEG-4についてはオブジェクト符号化という概念があるという点で異なる。MPEG-4においては、オーディオ、ビジュアル(ビデオ)のデータは各1つのオブジェクトとして扱われ、これらのオブジェクトを多重化・同期するのがシステムの役割である。なお、MPEG-4の動画像(ビジュアルおよびAVC)や音声のエレメンタリストリームの多重化には、MPEG-4システムの他にMPEG-2トランスポートストリーム(MPEG-2 TS)を用いることも可能であり、地上デジタルテレビジョン放送の1セグメント放送ではAVCとAACの伝送にMPEG-2 TSが用いられる。
さらに、複数のオブジェクトを組み合わせて扱うことを可能にするためのシーン記述のための仕様として、VRML97をベースとしたBIFS(Binary Format for Scenes)が規定されている。例えば、人物や背景の動画および音声をそれぞれ別個のオブジェクトとして符号化し、それらを重ね合わせて表示したり、ユーザが任意にオブジェクトを動かしたりできるようなアプリケーションを作ることが可能である。しかし、このようなオブジェクト符号化は、一般向けに実用化されていないのが現状である。
オブジェクト符号化の概念の導入やBIFSなどにより、MPEG-4システムの内容が肥大化してしまったため、ファイルフォーマット(MP4)に関しては後述のPart 14として独立して規定されている。