音声分析
[Wikipedia|▼Menu]

音声分析(おんせいぶんせき、: speech analysis)は音声特徴量へ変換・表現することである[注 1]
概要

音声とは人の喉から言語として発せられた振動である。最も単純な表現として音声は波、すなわち振幅の時間変動で表される。一方で波には様々な表現が存在する。例えばフーリエ変換を介して周波数表現でも等価に表現できるし、STFTによりスペクトログラムとしても表現できる。このように波である音声を分析し異なる表現へ変換することを音声分析という。

音声分析により得られる音響特徴量にはスペクトログラム、基本周波数などが挙げられる。これらの音響特徴量は音声認識音声合成の入力として利用される。
音響特徴量

音声分析で得られる特徴量は音響特徴量(: acoustic feature, speech representation)と呼ばれる。音響特徴量は専門家の手による特徴量エンジニアリングで考案されたり、機械学習を利用した表現学習によって得られる。特徴量の良さはその用途により異なる。以下は音響特徴量の例である。

スペクトルスペクトログラム

基本周波数

フォルマント

スペクトル包絡

ケプストラム

メル周波数ケプストラム係数

線形予測係数

非周期性指標

Acoustic Unit(表現学習

非周期性指標

非周期性指標(: aperiodicity)は音響信号の各周波数における非調波成分の割合である[2]。有声音であれば声のかすれ具合に相当する[3]
手法

フーリエ変換に基づく周波数解析がしばしば利用される。これによりスペクトルやスペクトログラムが得られ、また更なる分析によってfoやフォルマントの経時変化が得られる。

また、音声波形について、DCT変換を用いて直接数値化する事も行われている。これを更にパターンに当てはめる事で伝送用に特化させたものが音声圧縮アルゴリズムのCELPであり、この数値の相関性を基にして、特定の人物の音声を合成することも可能である。

以下は特定の特徴量を得るために用いられる分析手法の一例である:

スペクトル包絡

線形予測符号化(LPC)

ケプストラム


非周期性指標

D4C


Acoustic Unit Discovery

機械学習によりAcoustic Unit (AU) を得ることをAcoustic Unit Discovery; AUD という。典型的なAUDでは教師なし学習を用い、音声信号に繰り返し現れる単位(= AU)を抽出できるようモデルを学習する。学習方法やモデルによりAUがもつ特性は異なる(例: 音素に似た話者独立な特徴量、話者性を持つフォルマント的な特徴量)。AUは音声合成(unit-to-speech, speech resynthesis)や言語モデル(例: GSLM)に利用される。用途によりAUに求められる特性は異なる。

以下は具体的な手法の一例である。

教師なし学習[注 2]

再構成ベース: VQ-VAE-WaveNet

自己教師あり学習ベース: CPC, wav2vec 2.0, HuBERT


ASRモデル

注釈^ 音声分析合成システムは、音声の特徴を活用し、音声をパラメータとして表現する分析法、 および パラメータから合成する方法をまとめた方式を指す。 [1]
^ Studies on unsupervised speech representation learning can roughly be divided into reconstruction and self-supervised learning methods. [4]

出典^ 森勢将雅『音声分析合成』コロナ社〈音響テクノロジーシリーズ〉、2018年、53頁。.mw-parser-output cite.citation{font-style:inherit;word-wrap:break-word}.mw-parser-output .citation q{quotes:"\"""\"""'""'"}.mw-parser-output .citation.cs-ja1 q,.mw-parser-output .citation.cs-ja2 q{quotes:"「""」""『""』"}.mw-parser-output .citation:target{background-color:rgba(0,127,255,0.133)}.mw-parser-output .id-lock-free a,.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/6/65/Lock-green.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-limited a,.mw-parser-output .id-lock-registration a,.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/d/d6/Lock-gray-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-subscription a,.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/a/aa/Lock-red-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/4/4c/Wikisource-logo.svg")right 0.1em center/12px no-repeat}.mw-parser-output .cs1-code{color:inherit;background:inherit;border:none;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;color:#d33}.mw-parser-output .cs1-visible-error{color:#d33}.mw-parser-output .cs1-maint{display:none;color:#3a3;margin-left:0.3em}.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right{padding-right:0.2em}.mw-parser-output .citation .mw-selflink{font-weight:inherit}ISBN 9784339011371国立国会図書館書誌ID:029070892。 
^ "aperiodicity is defined as the power ratio between the speech signal and the aperiodic component of the signal" Morise. (2016). D4C, a band-aperiodicity estimator for high-quality speech synthesis. Speech Communication, Volume 84, pp.57-65.
^ 森勢将雅「音声パラメータのデザイン : 知覚情報を操作可能な音声合成に向けて」『日本音響学会誌』第74巻第11号、日本音響学会、2018年11月、608-612頁、CRID 1390001288135088000、doi:10.20697/jasj.74.11_608、ISSN 03694232。 
^ Polyak, et al. (2021). Speech Resynthesis from Discrete Disentangled Self-Supervised Representations.

関連項目

音声処理

話者認識

鈴木隆雄 - 元警察庁科学警察研究所副所長

鈴木松美

日本音響研究所
.mw-parser-output .asbox{position:relative;overflow:hidden}.mw-parser-output .asbox table{background:transparent}.mw-parser-output .asbox p{margin:0}.mw-parser-output .asbox p+p{margin-top:0.25em}.mw-parser-output .asbox{font-size:90%}.mw-parser-output .asbox-note{font-size:90%}.mw-parser-output .asbox .navbar{position:absolute;top:-0.90em;right:1em;display:none}

この項目は、物理学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めていますプロジェクト:物理学Portal:物理学)。
.mw-parser-output .hlist ul,.mw-parser-output .hlist ol{padding-left:0}.mw-parser-output .hlist li,.mw-parser-output .hlist dd,.mw-parser-output .hlist dt{margin-right:0;display:inline-block;white-space:nowrap}.mw-parser-output .hlist dt:after,.mw-parser-output .hlist dd:after,.mw-parser-output .hlist li:after{white-space:normal}.mw-parser-output .hlist li:after,.mw-parser-output .hlist dd:after{content:" ・\a0 ";font-weight:bold}.mw-parser-output .hlist dt:after{content:": "}.mw-parser-output .hlist-pipe dd:after,.mw-parser-output .hlist-pipe li:after{content:" |\a0 ";font-weight:normal}.mw-parser-output .hlist-hyphen dd:after,.mw-parser-output .hlist-hyphen li:after{content:" -\a0 ";font-weight:normal}.mw-parser-output .hlist-comma dd:after,.mw-parser-output .hlist-comma li:after{content:"、";font-weight:normal}.mw-parser-output .hlist-slash dd:after,.mw-parser-output .hlist-slash li:after{content:" /\a0 ";font-weight:normal}.mw-parser-output .hlist dd:last-child:after,.mw-parser-output .hlist dt:last-child:after,.mw-parser-output .hlist li:last-child:after{content:none}.mw-parser-output .hlist dd dd:first-child:before,.mw-parser-output .hlist dd dt:first-child:before,.mw-parser-output .hlist dd li:first-child:before,.mw-parser-output .hlist dt dd:first-child:before,.mw-parser-output .hlist dt dt:first-child:before,.mw-parser-output .hlist dt li:first-child:before,.mw-parser-output .hlist li dd:first-child:before,.mw-parser-output .hlist li dt:first-child:before,.mw-parser-output .hlist li li:first-child:before{content:" (";font-weight:normal}.mw-parser-output .hlist dd dd:last-child:after,.mw-parser-output .hlist dd dt:last-child:after,.mw-parser-output .hlist dd li:last-child:after,.mw-parser-output .hlist dt dd:last-child:after,.mw-parser-output .hlist dt dt:last-child:after,.mw-parser-output .hlist dt li:last-child:after,.mw-parser-output .hlist li dd:last-child:after,.mw-parser-output .hlist li dt:last-child:after,.mw-parser-output .hlist li li:last-child:after{content:")\a0 ";font-weight:normal}.mw-parser-output .hlist ol{counter-reset:listitem}.mw-parser-output .hlist ol>li{counter-increment:listitem}.mw-parser-output .hlist ol>li:before{content:" "counter(listitem)" ";white-space:nowrap}.mw-parser-output .hlist dd ol>li:first-child:before,.mw-parser-output .hlist dt ol>li:first-child:before,.mw-parser-output .hlist li ol>li:first-child:before{content:" ("counter(listitem)" "}.mw-parser-output .navbar{display:inline;font-size:75%;font-weight:normal}.mw-parser-output .navbar-collapse{float:left;text-align:left}.mw-parser-output .navbar-boxtext{word-spacing:0}.mw-parser-output .navbar ul{display:inline-block;white-space:nowrap;line-height:inherit}.mw-parser-output .navbar-brackets::before{margin-right:-0.125em;content:"[ "}.mw-parser-output .navbar-brackets::after{margin-left:-0.125em;content:" ]"}.mw-parser-output .navbar li{word-spacing:-0.125em}.mw-parser-output .navbar-mini abbr{font-variant:small-caps;border-bottom:none;text-decoration:none;cursor:inherit}.mw-parser-output .navbar-ct-full{font-size:114%;margin:0 7em}.mw-parser-output .navbar-ct-mini{font-size:114%;margin:0 4em}.mw-parser-output .infobox .navbar{font-size:88%}.mw-parser-output .navbox .navbar{display:block;font-size:88%}.mw-parser-output .navbox-title .navbar{float:left;text-align:left;margin-right:0.5em}


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:14 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef