音声符号化(おんせいふごうか、英: speech coding)は、アナログの音声信号をデジタル符号化するための技術で、音声の性質を使ってデータ圧縮を行うことに特徴がある。音楽などの一般的なオーディオ信号を対象とするMP3などのオーディオ圧縮技術は、人間の聴覚心理学上の特性やデータの冗長性を利用して不要なデータの除去を行うが、音声符号化ではそれに加えて音声固有のモデル化を行うことができるため、さらにビットレートを下げることが可能である。
音声符号化の技術は異なった多くの分野で使われている。代表的なのは、携帯電話、衛星電話、VoIPなど通信の分野だが、暗号化、放送、記録(Blu-ray Discなど)の分野や音声応答システムなどの音声処理の分野などで使用されている。 人間の声は、音源である声帯の音の特性や有声・無声の区別と、咽喉と口腔、鼻腔、舌、唇などの調音器官(声道)の共鳴による周波数選択特性でモデル化できる。音声波形はかなり早い振動成分を含むが、調音機構などの動きはそれと比べると比較的緩やかであり、それらを適切にパラメータ化することができれば、必要なデータを大幅に減らすことができる。 音声符号化は、通常のオーディオ圧縮技術と、音声をモデル化するパラメータを音声信号処理により抽出する技術とを組み合わせたものである。 音声符号化のアルゴリズムは大きく以下のように分けることができる。 波形符号化は音声固有のモデル化を行わない方法で、比較的音質は高いが圧縮率は低い。 分析合成符号化(ボコーダー)とハイブリッド符号化は、声帯に相当する音源と声道の特性を表す合成フィルターとで音声をモデル化する方法である。ハイブリッド符号化と分析合成符号化とは基本となる原理が似ているため、パラメトリック符号化(parametric coder)や(広義の)ボコーダーとしてまとめて扱われることもある。分析合成符号化は、聴感上同じ音声に聞こえるようにパラメータ化するのに対し、ハイブリッド符号化では音声波形に近づけることを目標に音源パラメータが決められる。 一般的に言って、波形符号化と比較するとハイブリッド符号化は圧縮率が高く、分析合成符号化は音声波形の再現を目指さない分さらに圧縮率が高い。分類ごとの特性をまとめると以下のようになる。 音声符号化アルゴリズムの分類と特性分類レート(kbps)複雑さ符号化方式の例 波形符号化(waveform coder)は、音声固有のモデル化を行うことなく音声波形などを忠実に符号化しようとする方法である。大きく分けて、時間領域で符号化を行うものと、周波数領域で符号化を行うものがある。一般に圧縮率は低いが、音楽などの音声以外の信号も音声と同じように符号化できる。
目次
1 概要
2 波形符号化
2.1 時間領域での符号化
2.1.1 PCM(パルス符号変調)
2.1.2 ADPCM(適応差分PCM)
2.1.3 デルタ変調
2.2 周波数領域での符号化
2.2.1 変換符号化
2.2.2 サブバンド符号化
2.2.3 他の符号化方式と組み合わせ
3 ハイブリッド符号化
3.1 CELP
3.1.1 VSELP
3.1.2 ACELP
3.1.3 LD-CELP
4 分析合成符号化(ボコーダー)
4.1 LPCボコーダー
4.2 各種符号化方式
4.2.1 Multi-Band Excitation / Mixed-Excitation Linear Prediction
4.2.2 Sinusoidal Coding(正弦波符号化)
4.2.3 Waveform Interpolation(波形補間符号化)
5 音声符号化に関連した技術
5.1 ベクトル量子化
5.2 線スペクトル対
5.3 音声強調
6 歴史
7 脚注
8 参考文献
9 関連項目
10 外部リンク
概要
波形符号化(waveform coder)
ハイブリッド符号化(hybrid coder, analysis-by-synthesis coder)
分析合成符号化(vocoder,ボコーダー)
波形符号化(時間領域)12-64LowPCM, ADPCM, CVSD
波形符号化(周波数領域)12-256MediumSBC
ハイブリッド符号化4.8-16HighCELP, ACELP, VCELP
分析合成符号化0.6-4.8HighLPC, AMBE, MELP
波形符号化