音声符号化 - 暇つぶしWikipedia

音声符号化

SBR は HE-AAC や mp3PRO などのコーデックで使われている。同様の考え方は HFR(high-frequency regeneration、high-frequency reconstruction)の名前でも知られており、音声符号化方式として古くから研究されている [1]。

この考え方は、携帯電話用の音声符号化規格である EVRC-WB や AMR-WB、VMR-WB などに使われている。AMR-WBでは7kHzの帯域幅の音声信号を標準レート設定で 6.60kbps?12.65kbps(最大23.85kbps)に、EVRC-WB は同じ帯域幅を 8.55kbps 以下に符号化できる。
ハイブリッド符号化

ハイブリッド符号化(hybrid coder, analysis-by-synthesis coder)は波形符号化と分析合成符号化とを組み合わせた方法である。分析合成符号化と同様、声帯に相当する音源と声道の特性を表す合成フィルターとして音声をモデル化しパラメータ化を行うが、声道のパラメータを用いて音声波形を再合成し、元の音声波形にできるだけ近くなるよう音源パラメータを求めることに特徴がある。合成による分析(analysis-by-synthesis,AbS)をベースとすることから AbS 符号化と表現されることもある。波形符号化と比較すると、音声の適切なモデル化により比較的低いビットレート(4.8-16kbps)でも良好な音質が得られ、携帯電話など低いビットレートが要求される機器で多く使われている。
CELP

CELP(code excited linear prediction coder,セルプ)は、ハイブリッド符号化方式の中で最も広く使われている音声符号化アルゴリズムである。声道に相当する合成フィルターとして線形予測フィルターを、声帯に相当する音源として適応型と固定型のコードブックを使用する。合成による分析の手法を用い、音声波形を再合成し聴感補正を行った後の信号と元の信号とを比較することで、コードブックから誤差が最小になるものを探索する。合成による分析は音質の向上に大きく貢献しているが、その反面大きな計算量が必要で、最初に提案された時には実時間での符号化ができなかった [2]。そのため、計算量を減らすための様々な派生方式が考案された。以下に代表的なCELPの派生方式を示す。

VSELP(vector sum excited linear prediction)

ACELP(algebraic CELP)

LD-CELP(low delay CELP)

VSELP

VSELP(vector sum excited linear prediction)は、複数の基底ベクトルを用意し、基底ベクトルの和(+/-)を固定型コードブックとして扱う方式である。個々の基底ベクトルごとの線形予測フィルターの出力を求めておけば、全ての基底ベクトルの和による出力はそれらの合成により求められ、計算量を大幅に削減できる。

VSELP 方式は第二世代携帯電話で主に使われ、日本ではPDC、北米ではD-AMPSの符号化方式として用いられた。
ACELP

ACELP(algebraic CELP)は、あらかじめ代数的に決められた位置に配置した振幅が+1/-1のパルスの組み合わせを固定型コードブックとして扱う方式である。その代数的な性格よりコード探索の効率が良く、コードブック全体をテーブルとして用意する必要が無いためメモリも削減できる。また、柔軟性があり大きなサイズのコードブックを容易に実現できる。そのためVoIPや携帯電話用として、多くの標準化方式で広く用いられている。

ACELP 方式は、ITU-T G.723.1(5.3kbps),G.729(8kbps),G.722.2(6.6-23.85kbps),及び携帯電話用の GSM AMR(GSM/W-CDMA用),AMR-WB(W-CDMA用,AMRのワイドバンド版),EVRC(CDMA2000用),VMR-WB(CDMA2000用のワイドバンド版),SMV(CDMA2000用),PDC-EFR(PDC用)などに用いられている。
LD-CELP

LD-CELP(low delay CELP)は、符号化遅延を2ms以下に低遅延化した CELP である。 CELP を含む多くの符号化方式は、サンプル値を20ms程度のフレームにまとめフレーム単位で符号化の処理を行う。そのため方式によって決まる一定の符号化遅延が発生する。LD-CELP はフレーム単位の処理を行わず、過去のサンプル値から後ろ向きに線形予測係数などのパラメータを求め、また5サンプル単位でコードブック探索を行うことで低遅延化を行っている。

LD-CELP 方式は、ITU-T G.728(16kbps)で使われ、32kbpsのADPCMと同等の音質を実現している。
分析合成符号化

分析合成符号化はボコーダーを用いた符号化、すなわち、人間の声のモデルを元に信号を分析してパラメータ化し符号化を行う方式である。

復号時には、音声の波形ではなく聴感上同じ音声に聞こえるように再合成を行う。CELPなどの音声波形を意識した符号化方式は音声信号を比較的良い音質で符号化できるが、ビットレートが4kbps以下になると音声波形の再現が十分にできず音質が悪化する [3]。多くの分析合成符号化方式は、1.2?4kbps程度で音声を符号化でき、方式によっては0.6kbps程度でも了解可能な音声の符号化ができる。分析合成符号化は、低いビットレートでの符号化が必要な無線通信の分野、特に衛星電話や、軍事用戦術無線通信などで使われている。
線形予測符号化詳細は「線形予測符号」を参照

線形予測符号化は音声を音源（残差）と線形フィルタ（係数）へと分析し再合成することで符号化とする手法である。この手法によるボコーダーをLPCボコーダーという。

この基礎となる技術は1960年代から1970年代にかけて開発された [4]。最初期の分析合成符号化方式で、CELPなど他の方式のベースになっている。LPCボコーダーを用いた初期の規格としては1976年の Federal-Standard 1015(LPC-10e)があり、音声を2.4kbpsで符号化できた。主に軍用・政府用の暗号化通信に使用された。
Multi-Band Excitation / Mixed-Excitation Linear Prediction

Multi-Band Excitation(マルチバンド励振)は、異なった周波数ごとに有声・無声の区別をパラメータ化する方式である。通常、線形予測フィルターと組み合わせて使用する。人間の声の有声・無声の区別は単純ではなく、周期的な成分(有声音)と雑音成分(無声音)とが混じっていることも多い。この方式では音声信号をいくつかの周波数領域に分け、各領域ごとに有声・無声の判定を行うことでより自然な音声の再合成を行う。また、この方式はノイズが多い環境での有声・無声の判定間違いの音質への影響がLPCボコーダーと比べ小さいため、野外やヘリコプター内などのノイズが多い環境にも向いている [5]。Multi-Band Excitationの考え方を応用した符号化方式として、IMBE(Improved Multi-Band Excitation),AMBE(Advanced Multi-Band Excitation)が、関連する符号化方式としてMELP(Mixed-Excitation Linear Prediction)とそれを改良したMELPe(enhanced Mixed-Excitation Linear Prediction)がある。

IMBE と AMBE は米 Digital Voice Systems 社が開発した符号化方式で、3.6kbps AMBE は 8kbps VCELP と同等の音質だと言われている [6]。詳細なアルゴリズムは公開されていない。主に衛星電話やアマチュア無線でのデジタル通信(D-STAR)で使用されている。

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: "音声符号化" ? ニュース・書籍・スカラー・ CiNii ・ J-STAGE ・ NDL ・ dlib.jp ・ジャパンサーチ・ TWL（2022年11月）

Sinusoidal Coding(正弦波符号化)は、音声を正弦波の組み合わせとして表現する方法である。また、このようなモデル化を複合正弦波モデル(Composite Sinusoidal Model)と呼ぶこともある。フーリエ変換と異なり、組み合わせる正弦波の周波数は整数倍の関係でなくとも構わない。また、音声波形の再現ではなく、再合成した音声が同様に聞こえるよう符号化を行う。人間の声はいくつかのフォルマント周波数で特徴付けられ、例えば母音の認識は音声波形ではなくフォルマント周波数の組み合わせで認識していると言われている。周波数領域のパラメータを用いることで、聴覚上より自然にパラメータ化を行えることが期待できる [8]。

Size:56 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef