ケプストラム(英: cepstrum)は周波数スペクトルを信号と見なしフーリエ変換して得られる信号である[1]。図. 倍音+ノイズの波形/スペクトル/ケプストラム 時系列信号のフーリエ解析ではスペクトラムが得られる。得られた周波数系列信号に対しフーリエ解析をおこなったもの、すなわちスペクトルのスペクトルがケプストラムである。このためスペクトラム(spectrum)のアナグラムを用いてspectrum→cepstrumと名付けられた。ケプストラムには、複素数版と実数版がある。 ケプストラムは1963年、Bogert らの論文で定義された。ケプストラムの定義は以下の通り。
概要
口語的定義: (信号の)ケプストラムとは、(信号の)フーリエ変換の対数(位相アンラッピング
数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。
アルゴリズム的定義: 信号 → FT → abs() → log → 位相アンラッピング → FT → ケプストラム
実数ケプストラムは、実数値について定義された対数関数を使う。複素数ケプストラムは、複素数について定義された複素対数関数を使う。
複素ケプストラムは、最初のスペクトルの振幅と位相に関する情報を保持しており、信号の再構築が可能である。実数ケプストラムはスペクトルの振幅に関する情報しか保持しない。
処理過程を FT → log → IFT(フーリエ逆変換)として説明しているものがよく見受けられる。すなわち、ケプストラムを「スペクトルの対数のフーリエ逆変換」と定義しているのである。これはオリジナルの論文にある定義ではないが、広く用いられている。
ケプストラムの計算方法は様々である。位相アンラッピングを必要とするものも、必要としないものもある。 ケプストラムは、異なるスペクトル帯における変化の度合いに関する情報と見ることができる。本来、地震や爆弾の爆発を原因とする地震性反響の特性を調べるために考案された。また、レーダー信号の反射を解析するのにも使われてきた。 autocepstrum は、自己相関のケプストラムである。autocepstrum を用いるとデータに反響(エコー)がある場合にケプストラムよりも正確に解析ができる。 現在では、人間の声や音楽の信号を表す特徴ベクトルとしても使われている。この場合、スペクトルをまずメル尺度を使って変換する。その結果はメル周波数ケプストラム係数
応用
これらの応用が生まれたのは、ケプストラムが声道によって歪められた信号から声帯の振動に起因するエネルギーだけを分離できるためである。 ケプストラム分析(英: cepstrum analysis)はケプストラムを用いた信号分析の総称である。 ケプストラム分析の例にスペクトルの成分分離がある。ケプストラムはリフタを用いて低周波成分と高周波成分に分離できる。低周波成分はスペクトルの(周波数方向における)ゆっくりとした変動を表現しており、スペクトル包絡に相当する。高周波成分はスペクトルの微細構造を表現していると解釈できる。 ケプストラム分析に基づいた音声分析(ケプストラム音響分析)でしばしば利用される[2]。音声/音響分析では楽音が倍音を持ちスペクトルの微細構造が周期性を有しているため、ケプストラムの高周波成分に明瞭なピークが現れる。この周期を検出することで音響信号の基本周波数を推定できる。また低周波成分によるスペクトル包絡を声道特性として解釈できる[3]。 このようにケプストラム分析を用いることで信号の様々な特性を明らかにできる。 ケプストラムのグラフにおける独立変数を quefrency(ケフレンシ)と呼ぶ(周波数、すなわち "frequency" のアナグラム)。quefrency は時間の尺度だが、信号の時間領域という意味での時間ではない。例えば、音声信号のサンプリングレートが44100Hzのとき、quefrency が 100 サンプルのケプストラムには大きなピークが現われた場合、そのピークは 44100/100 = 441 Hz というピッチの存在を示している。このようなピークがケプストラムに現われるのは、スペクトルにおける倍音が周期的で、その周期がピッチと一致しているためである。 さらなるアナグラムを挙げると、ケプストラム上のフィルタ(filter)を lifter と呼ぶことがある。周波数領域におけるローパスフィルタと同じような性質を示す lifter をローパスlifterと呼ぶ。ローパスlifterを通した信号を時間領域に戻してやると、より滑らかな信号が得られる。 ケプストラム領域における重要な特性として、2つの信号の畳み込みは、それぞれのケプストラムの総和で表される。 x 1 ∗ x 2 → x 1 ′ + x 2 ′ {\displaystyle x_{1}*x_{2}\rightarrow x'_{1}+x'_{2}} メル周波数ケプストラム メル周波数ケプストラム係数(英: Mel-frequency cepstral coefficients、MFCC)はメル周波数ケプストラムの概形を表す係数である[4]。MFCにリフターを適用した上で低次要素のみを残したものをMFCCとする場合が多い(例: 80次元メルスペクトラムに対する20次元MFCC)。 MFCCにiDCTを適用すると周波数空間へ戻り、これはスペクトラムの包絡とみなすことができる。
ケプストラム分析
quefrency
lifter
畳み込み
派生
メル周波数ケプストラム
メル周波数ケプストラム係数
脚注^ "The log power spectrum can be considered as a 'frequency series'" B. P. Bogert, et al. (1963).
^ "ケプストラム解析に基づく音響分析(ケプストラム音響分析)" 水田. (2021). ケプストラム解析による音響分析の有用性 -エビデンスと今後の展望-
Size:10 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef