音声符号化
[Wikipedia|▼Menu]

音声符号化(おんせいふごうか、: speech coding)は、アナログ音声信号をデジタル符号化するための技術で、音声の性質を使ってデータ圧縮を行うことに特徴がある。音楽などの一般的なオーディオ信号を対象とするMP3などのオーディオ圧縮技術は、人間の聴覚心理学上の特性やデータの冗長性を利用して不要なデータの除去を行うが、音声符号化ではそれに加えて音声固有のモデル化を行うことができるため、さらにビットレートを下げることが可能である。

音声符号化の技術は異なった多くの分野で使われている。代表的なのは、携帯電話衛星電話VoIPなど通信の分野だが、暗号化放送、記録(Blu-ray Discなど)の分野や音声応答システムなどの音声処理の分野などで使用されている。
概要

人間のは、音源である声帯の音の特性や有声無声の区別と、咽喉と口腔、鼻腔、舌、唇などの調音器官(声道)の共鳴による周波数選択特性でモデル化できる。音声波形はかなり早い振動成分を含むが、調音機構などの動きはそれと比べると比較的緩やかであり、それらを適切にパラメータ化することができれば、必要なデータを大幅に減らすことができる。

音声符号化は、通常のオーディオ圧縮技術と、音声をモデル化するパラメータを音声信号処理により抽出する技術とを組み合わせたものである。

音声符号化のアルゴリズムは大きく以下のように分けることができる。

波形符号化(waveform coder)

ハイブリッド符号化(hybrid coder, analysis-by-synthesis coder)

分析合成符号化(vocoder,ボコーダー)

波形符号化は音声固有のモデル化を行わない方法で、比較的音質は高いが圧縮率は低い。

分析合成符号化(ボコーダー)とハイブリッド符号化は、声帯に相当する音源と声道の特性を表す合成フィルターとで音声をモデル化する方法である。ハイブリッド符号化と分析合成符号化とは基本となる原理が似ているため、パラメトリック符号化(parametric coder)や(広義の)ボコーダーとしてまとめて扱われることもある。分析合成符号化は、聴感上同じ音声に聞こえるようにパラメータ化するのに対し、ハイブリッド符号化では音声波形に近づけることを目標に音源パラメータが決められる。

一般的に言って、波形符号化と比較するとハイブリッド符号化は圧縮率が高く、分析合成符号化は音声波形の再現を目指さない分さらに圧縮率が高い。分類ごとの特性をまとめると以下のようになる。

音声符号化アルゴリズムの分類と特性分類レート(kbps)複雑さ符号化方式の例
波形符号化(時間領域)12-64LowPCM, ADPCM, CVSD
波形符号化(周波数領域)12-256MediumSBC
ハイブリッド符号化4.8-16HighCELP, ACELP, VCELP
分析合成符号化0.6-4.8HighLPC, AMBE, MELP

波形符号化

波形符号化(waveform coder)は、音声固有のモデル化を行うことなく音声波形などを忠実に符号化しようとする方法である。大きく分けて、時間領域で符号化を行うものと、周波数領域で符号化を行うものがある。一般に圧縮率は低いが、音楽などの音声以外の信号も音声と同じように符号化できる。
時間領域での符号化

時間領域で波形を符号化する技術は最も古くからあるもので、PCMADPCMなどがその代表である。圧縮率は低いが、比較的単純に符号化ができ符号化遅延もないため、主に電話回線などの符号化方式として使われてきた。

主要な符号化方式として以下のものがある。

PCM(パルス符号変調)

ADPCM(適応差分PCM)

DM(デルタ変調)

PCM(パルス符号変調)

パルス符号変調(pulse code modulation,PCM)は最も基本となる波形符号化方式である。線形PCMと、人間の聴覚の対数的な特性を利用し信号の振幅が大きくなるほど量子化のステップ幅を大きくする非線形PCMの2種類がある。非線形PCMの規格で、圧伸特性としてμ-law(北米・日本)及びA-law(欧州その他)を使用する ITU-T G.711 が電話などでの音声符号化の用途で使われている。4kHzの帯域幅を持つ電話品質の音声(標本化周波数8kHz)を64kbpsで符号化できる。
ADPCM(適応差分PCM)

音声信号の隣り合ったサンプル間には相関があるため、過去のサンプル値を利用して現在のサンプル値を予測することができる。1つ前のサンプル値を予測値として、次のサンプル値との差分のみをコード化する差分PCM(differential pulse code modulation,DPCM)を改良し、量子化幅を適応的に変化させる方式が適応差分PCM(adaptive differential pulse code modulation,ADPCM)である。

規格としては、 電話品質の音声を32kbpsに符号化するITU-T G.721 が1984年に勧告され、その後16,24,32,40kbps(2?5ビット/サンプル)に符号化するITU-T G.726 が勧告された。適応差分PCMは日本のPHS(personal handy-phone system)などで使用されている。
デルタ変調

デルタ変調(delta modulation)は差分PCMの1ビット版で、1つ前のサンプル値に対するサンプル値の大小を1ビットで符号化する。デルタ変調を応用したものとして、適応デルタ変調(adaptive delta modulation,ADM)、デルタ・シグマ(Δ-Σ)変調(delta-sigma modulation)などがある。他の方式と比べ単純なハードウェアで音声の符号化ができるため、デジタル回路が高価だった時代に考案された。

適応デルタ変調はデルタ変調の量子化幅を適応的に変化させる方式で、適応差分PCMの1ビット版にあたる。CVSD(continuously variable slope delta modulation)とも呼ばれる。CVSDはMIL-STD-188-113(16kbps と 32kbps)と Federal-Standard 1023(12kbps)の規格があり、アメリカの軍事用戦術無線通信システムで暗号化通信のための音声符号化方式として使用されていた。

デルタ・シグマ変調は、伝送の途中の誤りが後々まで影響するデルタ変調の問題点を解決したもので、デルタ変調でのサンプル値の差分をとる回路と量子化を行う回路との間に積分回路を置いたものである。デルタ・シグマ変調は初期の電子式電話交換機で使われ、またAD変換及びDA変換用LSIの技術として多用されている。
周波数領域での符号化

周波数領域の符号化では、音声信号を周波数領域のデータに変換し、周波数ごとの電力密度の違いや人間の聴覚モデルを利用して周波数毎の量子化の幅やビット割り当てを変え、また不要な情報の削除を行う。人間の知覚上の特性を利用するため、知覚符号化(perceptual audio coding)と呼ばれることもある。この符号化方法は、CELPなど他の方式と比べビットレートが低いときの音声の品質が良くないため、主に高いビットレートでの符号化に利用され、電話会議などの比較的高い品質が必要な音声の符号化や、音楽を含む一般的なオーディオ信号の符号化のために使われることが多い。また、CELPなど他の符号化方式と組み合わせて使用する場合もある。主要な符号化方式として変換符号化やサブバンド符号化があり、MP3AACなどのオーディオ圧縮技術としても使われている。
変換符号化

変換符号化(transform coding)は、何らかの直交変換を用いて入力を複数の周波数領域に分解し、それぞれを符号化する方式である。適応変換符号化(adaptive transform coding)と呼ばれることもある。

使用する直交変換としては、高速な処理が可能で特性の優れた離散コサイン変換(DCT)の一種である変形DCT(modified discrete cosine transform,MDCT)が使用されることが多い。電力密度とマスキング特性など人間の聴覚心理学上の特性から帯域ごとのビット配分を決める。電力密度の低い領域や人間の聴覚特性上聞こえにくい周波数領域に少ないビットを割り当てることで情報を圧縮する。次のサブバンド符号化とよく似た符号化方式だが、帯域分割数などの設定が容易で様々な直交変換を使えるため自由度が高い。

ITU-T G.722.1 annex C は離散コサイン変換によく似た Modulated Lapped Transform(MLT)と呼ばれる変換を使用し、14kHzの帯域幅の高音質の音声信号を24,32,48kbpsに符号化できる。ビデオ会議用に使われる。
サブバンド符号化

サブバンド符号化(sub-band coding)は、フィルターを用いて入力を複数の周波数領域に分解し、それぞれを符号化する方式である。各周波数領域ごとに異なったビット配分を行うことで情報を圧縮するのは変換符号化と同じである。変換符号化と考え方がよく似ているため、変形DCTなどを用いた符号化方式もサブバンド符号化とまとめて呼ぶ場合がある。

ITU-T G.722 は2つのサブバンドに分けてADPCMで符号化を行う方式で、7kHzの帯域幅の音声信号を64kbps以下に符号化できる。
他の符号化方式と組み合わせ

周波数領域での符号化は他の符号化方式と組み合わされ、扱う周波数範囲を広げたり多くのビットレートをサポートする目的で使われることがある。例えば、SBR(spectral band replication)は周波数領域での符号化を応用したもので、符号化の対象となる周波数領域を複数に分け、音声信号でのほとんどの情報が含まれる低域の情報を CELP などの通常の方式で符号化し、それ以上の高域の情報は大まかなスペクトル情報のみを符号化して、受信側では高域の情報を低域成分から予測復元する方法である。SBR は HE-AACmp3PRO などのコーデックで使われている。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:56 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef