スペクトログラム - 暇つぶしWikipedia

スペクトログラム

□記事を途中から表示しています
[最初から表示]

基準量は用途によって異なり、純粋に対数表現するならば 1 {\displaystyle 1} 、スペクトログラム内の相対関係をみるならばピーク値 m a x ( S ) {\displaystyle max(S)} [3]や中央値 m e d i a n ( S ) {\displaystyle median(S)} [4]が用いられる。数値はdB単位を採用する場合が多い。
生成男性が「タタタ」と発声したときのスペクトログラム女性が「みなと」と発声したときのスペクトログラム

スペクトログラムを作成する方法は主に2種類存在する。1つはバンドパスフィルタ群を使う方法、もう1つは短時間フーリエ変換（STFT）で計算する方法である。

フィルタを使った手法は主にアナログの連続信号で使われる。信号の周波数範囲（音声信号の場合、20Hz から 20kHz）を等間隔に分ける。ただし、線型に等間隔な場合（例えば 0-100、100-200、200-300、…）と対数的に等間隔の場合（例えば 10-100、100-1000、1000-10000、…）がある。信号が各フィルタに入力されると、その周波数帯域以外の周波数成分は除去される（ただし、実際のフィルタは窓関数としては不完全なので、周囲の周波数帯域の成分が若干残る）。各フィルタの出力を時間と共に記録する。その記録を水平にしたものを周波数帯域の順番に積み重ねるように置くと、横軸を時間とし縦軸を周波数としたスペクトログラムが完成する。

デジタル信号では、STFTを使ってスペクトログラムを作成する。時間領域で標本化されたデータはチャンクに分けられ（チャンクは一般にオーバーラップさせる）、チャンク毎にフーリエ変換を施す。各チャンクの変換結果がスペクトログラムのある時間の全周波数成分のグラフ（スペクトル）となるので、これを垂直において時系列に並べるとスペクトログラムが完成する。
スペクトログラムからの音響生成

上述の変換処理を逆に行うこともできる。以下のプログラムはデジタル画像をスペクトログラムと解釈して音に変換できる。

⇒MetaSynth （Macintosh）

Coagula （Windows）

⇒Enscribe （Linux）

⇒The Analysis & Resynthesis Sound Spectrograph （クロスプラットフォーム）

⇒JavOICe （Javaアプレット）

FL Studio の "BeepMap"

ナイン・インチ・ネイルズのアルバム「イヤー・ゼロ」リーク版の最後にあるホワイトノイズ部分のスペクトログラム

この技法を電子音楽のアーティストが利用して、音楽にスペクトログラムの画像を潜ませることがある。以下に例を挙げる。

エイフェックス・ツインは自身の画像をスペクトログラムとして潜ませた。Windowlicker のトラック2の最後の9秒間がそれである。MP3でも認識可能だが、CDから直接スペクトログラム化したときほど鮮明ではない。同じシングルのトラック1にも螺旋の画像が潜ませてある ⇒[1] 。

ナイン・インチ・ネイルズは2007年のアルバム「イヤー・ゼロ」でこの技法を使っている。イヤー・ゼロのリリース前にリークされた "My Violent Heart" には最後に無音の部分がある。ここをスペクトログラム化すると、空から手が伸びてきている画像が出てくる。正式リリース版では、"The Warning" という曲の最後に同じ画像がある。イヤー・ゼロには他にもいくつかの画像が潜ませてある。

現代音楽では、製作途中にスペクトログラムを使う場合がある。スペクトログラム化した状態で直接周波数や時点を指定して音の強さを変更し、再度もとの音に戻す。
派生
 メルスペクトログラム

メルスペクトログラム（英: mel spectrogram）は周波数軸がメル尺度のスペクトログラムである。

メルスペクトログラムは（リニア）スペクトログラムにメルフィルターバンクを適用して生成されることが多く、その場合は周波数軸の次元数が小さくなる。すなわち聴覚特性に基づいた次元圧縮としても機能するため、信号処理、特にディープラーニングの前処理でしばしば用いられる [5]。
脚注[脚注の使い方]^ "A(m, k) は振幅スペクトログラム(小野順貴(2016))
^ " 。 X ( m , k ) 。 2 = A 2 ( m , k ) {\displaystyle \left\vert X(m,k)\right\vert ^{2}=A^{2}(m,k)} はパワースペクトログラムと呼ばれる。(小野順貴(2016))
^ "Compute dB relative to peak power ... librosa.power_to_db(S**2, ref=np.max)" librosa 0.9.1.
^ "compare to median power >>> librosa.power_to_db(S**2, ref=np.median)" librosa 0.9.1.
^ "ニューラルボコーダはメルスペクトログラムなどの音響特徴量から音声を復元するボコーダに深層学習を適用したもの" 松原. (2021). ⇒HiFi-GAN ボコーダにおける LPCNet 特徴量の検討. 日本音響学会.

参考文献

 小野順貴「短時間フーリエ変換の基礎と応用」『日本音響学会誌』第72巻第12号、日本音響学会、2016年、764-769頁、doi:10.20697/jasj.72.12_764。

関連項目

 スペクトラムアナライザ

 高速フーリエ変換

 短時間フーリエ変換

 ウェーブレット変換

 分光器

 スペクトル

 音声学

 コウモリ探知機

 外部リンク

⇒Sonogram Visible Speech Javaで書かれたスペクトログラム生成ソフト。Java WebStart により直接ウェブページから起動できる。

⇒エイフェックス・ツインのスペクトログラム画像

⇒DiscreteTFDs - スペクトログラムなどを計算するソフトウェア（MATLAB用）

⇒Praat - 音声学用ソフトウェア

⇒KTH WaveSurfer - 音声視覚化ソフトウェア

⇒baudline signal analyzer - FFTスペクトログラムソフトウェア

⇒xeno-canto 3100以上の鳥の鳴き声のスペクトログラム

Size:13 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef