MPEG-4(ISO/IEC 14496)自体は、動画・音声全般を扱う多様なマルチメディア符号化フォーマットを規定している。これらは以下に示す複数の「部(Part)」に分れて標準化されている。MPEG-4の各部は、ISO/IEC 14496を翻訳したJIS X 4332の各部と対応する。なお、第31部以降は現在開発中である。
動画には第2部(1999年制定)と第10部(2003年制定)があることに注意する。一般にMPEG-4動画(またはMPEG-4ビジュアル)といえば第2部を指すことが多く、第10部は第2部と区別するために、MPEG-4 AVC と呼ばれることがある。MPEG-4は動画の符号化規格と呼ばれることもあるが、実際に規定されているのは復号のみであり、符号化は規定していない。
部ISO/IEC規格番号名称概要
1ISO/IEC 14496-1
マルチメディアデータをファイルや記録メディアに保存したり、ネットワーク上で伝送するには、動画と音声毎に別々に符号化した符号化データの統合(多重化)と同期のための仕組みが必要となる。この多重化方式を規定するものがシステムである。なお、システムによって多重化される以前の動画像や音声のバイナリデータをエレメンタリストリーム(ES: Elementary Stream)と呼ぶ。
動画像と音声のエレメンタリストリームを多重化するという目的においては、MPEG-1やMPEG-2のシステムに近いといえるが、MPEG-4についてはオブジェクト符号化という概念があるという点で異なる。MPEG-4においては、オーディオ、ビジュアル(ビデオ)のデータは各1つのオブジェクトとして扱われ、これらのオブジェクトを多重化・同期するのがシステムの役割である。なお、MPEG-4の動画像(ビジュアルおよびAVC)や音声のエレメンタリストリームの多重化には、MPEG-4システムの他にMPEG-2トランスポートストリーム(MPEG-2 TS)を用いることも可能であり、地上デジタルテレビジョン放送の1セグメント放送ではAVCとAACの伝送にMPEG-2 TSが用いられる。
さらに、複数のオブジェクトを組み合わせて扱うことを可能にするためのシーン記述のための仕様として、VRML97をベースとしたBIFS(Binary Format for Scenes)が規定されている。例えば、人物や背景の動画および音声をそれぞれ別個のオブジェクトとして符号化し、それらを重ね合わせて表示したり、ユーザが任意にオブジェクトを動かしたりできるようなアプリケーションを作ることが可能である。しかし、このようなオブジェクト符号化は、一般向けに実用化されていないのが現状である。
オブジェクト符号化の概念の導入やBIFSなどにより、MPEG-4システムの内容が肥大化してしまったため、ファイルフォーマット(MP4)に関しては後述のPart 14として独立して規定されている。ちなみに、ネットワーク上での伝送に関しては、Part 8および ⇒RFC 3640 で規定されている。
なお、バイナリフォーマットであるBIFSを容易に扱えるようにするため、XML準拠の記述形式として、Extensible MPEG-4 Textual Format in XML (XMT)がPart 11で規定されている。 MPEG-1ではビデオCD、MPEG-2では放送やHDTVでの使用を想定しているのに対して、MPEG-4では低ビットレートでの使用にまで用途を拡大することを目標として規格化が開始された。符号化技術としては先に規格化が進んでいたH.263を基に幾つかのツールを追加した構成になっている。H.263との相違点は、フレーム間予測におけるBフレームの採用、DCT係数のAC/DC予測の導入、などが挙げられる。
MPEG-4 動画(第2部)