知覚符号化 - 暇つぶしWikipedia

知覚符号化

知覚符号化（ちかくふごうか、英: Perceptual Coding, Perceptual Audio Coding）はアナログ信号をデジタル符号化するための技術で、主にオーディオ信号の符号化に利用される。聴覚心理学に代表される人間の知覚心理学上の特性を利用してデータ圧縮を行うことに特徴がある。知覚符号化の原理を応用した符号化方式として変換符号化（Transform Coding）やサブバンド符号化（Sub-Band Coding）がある。

知覚符号化はオーディオ圧縮技術として多くの規格で使われており、代表的なものとしてMPEG-1オーディオ（MP3など）、MPEG-2オーディオやMPEG-4オーディオ（AAC、HE-AACなど）、ATRAC、Vorbisなどがある。
概要

知覚符号化は人間の知覚の特性を利用し、知覚しにくい細部の情報を省略したり少ないビット数で表現することでデータの非可逆圧縮を行う方式である。再生される信号は元の信号と異なるが人間にはこの差が知覚できず、実用上同じ信号と見なすことができる。

知覚符号化による圧縮は、元の信号と同じ信号を再生する可逆圧縮方式と比べるとはるかに効率が良い。例えば、CD 品質のオーディオ信号の場合、通常の PCM による符号化に対し可逆圧縮では多くの方式が 1/2 前後の圧縮率なのに対し [1]、AACなどの知覚符号化を利用した非可逆圧縮方式では音質の劣化をほとんど感じさせることなく 1/10 以下に圧縮できる [2][3][4]。

これらの知覚符号化を利用した符号化方式では、人間の聴覚心理学上の特性を利用して情報の圧縮を行う。ある音により他の音が聞こえなくなる人間の聴覚のマスキング特性を利用し、人間が聞こえない成分を符号化しないことで情報量を抑える。また信号を少ないビット数で量子化した場合に増える量子化雑音を聴覚が検知できる閾値以下に抑えることで、知覚できる雑音を増やすことなく符号化に必要なビット数を低減する。さらに、エネルギーの小さい周波数領域や人間の聴覚特性上聞こえにくい周波数領域に少ないビットを割り当てる。
聴覚の特性聴覚の最小可聴限界同時マスキングの例

人間の耳は音を神経刺激に変換する際に周波数スペクトルへの分解を行う。この解析は内耳の蝸牛にある基底膜の機械的な特性と内耳神経による処理とで行われ、これらはバンドパスフィルタの集まりと見なすことができる。バンドパスフィルタの特性は非対称、非線形で、周波数ごとに決まる固有の帯域幅（臨界帯域）を持つ。

知覚符号化アルゴリズムで用いられる人間の聴覚心理学上の特性として以下のものがある [5]。
最小可聴値（Absolute Threshold of Hearing、聴覚閾値）
聴覚が検知できる音の最小レベル最小レベルは周波数により異なり、3?4kHz 付近が最も感度が高い。低音/高音になるにしたがい感度は悪くなる。最小可聴限界以下の成分は符号化する必要が無く、感度が悪い周波数領域には少ないビットを割り当てても問題が無い。
同時マスキング（Simultanous Masking、周波数マスキング）
ある周波数の音によりその近くの周波数の小さな音が聞こえにくくなる現象。音が純音かそうでないかで聞こえにくさは異なる。マスキングしきい値以下のまったく聞こえない成分は符号化する必要が無く、聞こえにくい成分は少ないビットを割り当てても問題が無い。
臨界帯域（Critical Band）
同時マスキングが発生する帯域幅。周波数により異なり、500Hz まではほぼ一定（100Hz程度）で、500Hz 以上の周波数では中心周波数の 20% 程度の帯域幅になる [5]。マスキング対象成分の分析はこの帯域幅を基準に行う。
継時マスキング（Temporal Masking、時間マスキング）
ある音によりその前後の時間の小さな音が聞こえにくくなる現象音の前のマスキングは数ms程度、音の後のマスキングは100ms以上続く [5]。

知覚符号化では、入力信号の周波数成分の分析を行い聴覚心理学上の特性から最小可聴値やマスキングの影響を計算する。符号化の際の歪みのエネルギーがマスキングしきい値以下であれば人間に知覚できないことを利用して周波数ごとの割り当てビット数を決める。割り当て対象となる周波数の幅は一定とは限らず、バーク尺度など人間の聴覚特性を反映した単位が用いられることが多い。
一般的な構成

知覚符号化では、人間の聴覚と同様、時間によって変化する入力信号を周波数領域のパラメータに変換して処理を行う。周波数領域の信号への変換方法により以下のような様々なバリエーションがある。
変換符号化（Transform Coding）
MDCTなどの直交変換（より一般的にはユニタリ変換）を利用して入力を複数の周波数領域の信号に変換
サブバンド符号化（Sub-Band Coding）
複数のフィルタを用いて入力を複数の周波数領域の信号に分解
正弦波符号化（Sinusoidal Coding）
入力を複数の正弦波の組み合わせとして表現
その他
フィルタと直交変換の組み合わせなど

エンコード時、入力信号をMDCTやフィルタにより周波数領域のパラメータに変換する。同時に聴覚心理モデルを使った分析によりマスキングの閾値を計算し、量子化雑音が閾値以下になるよう周波数領域の各成分へのビット割り当てを行う。マスキングにより聞こえにくい成分には少ないビットを割り当てられ、マスキングの閾値以下の成分にはビットが割り当てられない。

Size:49 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef