音声認識 - 暇つぶしWikipedia

音声認識

音声認識（おんせいにんしき、英: speech recognition）は声がもつ情報をコンピュータに認識させるタスクの総称である [1]。ヒトの（天然）音声認識と対比して自動音声認識（英: Automatic Speech Recognition; ASR）とも呼ばれる [2]。

例として文字起こしや話者認識が挙げられる。
タスク

音声認識は「音声に含まれる情報を認識するタスク」の総称であり、具体的に解かれる問題の例として以下が挙げられる：

Speech-to-Text (STT): 含まれる言語情報を文字に変換するタスク。いわゆる文字起こし

キーワード認識（英語版）(KWS): 事前に設定されたキーワードの出現を認識するタスク。例として「ヘイ、Siri」

音声認識をサブタスクとして含むタスクには以下が挙げられる：

音声操作: 音声によるアプリの操作。SST/KWSで音声情報を取り出し、これをコンピュータ操作命令へ変換

音声入力: 音声によるアプリへの文字入力。SSTで文字化、整形 [3]ののちアプリへ引き渡し。ディクテーション（聞き取り）とも

 認識技術
 統計的手法

音声認識では、統計的手法が良く用いられている。これは大量の発話を記録した学習用データから音声の特徴を蓄積し、認識対象となる入力音声から抽出された特徴と蓄積された特徴とを比較しながら、最も近い言語系列を認識結果として出力する手法である。

一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれる。音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられている。言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれる。例えば、「あなた (a n a t a)」という発声の直後には、「が (g a)」や「は (w a)」などの発声が続く確率が高い、などの制約である。言語モデルの表現としては、認識対象の言語が大規模な場合(パソコン上での文書作成など)はn-gramが良く用いられ、認識対象の言語が人手で網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文法が良く用いられる。
動的時間伸縮法

動的時間伸縮法（Dynamic time warping、DTW）は初期の音声認識手法であるが、隠れマルコフモデルに基づく手法が一般化したため、使われなくなった。時間または早さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズムである。例えば、人間の歩行のパターンは、素早く歩いても、ゆっくり歩いても、さらには歩行の画像を早送りしてもスロー再生しても一定のパターンが存在する。DTW は音声だけでなく動画などの任意の時系列のデータに適用可能である。音声認識においては、発声速度がどうであっても一定のパターンを検出するために使われていた。従って、比較のための標準パターンが必要であり、認識できる語彙は限定される。
隠れマルコフモデル

音声信号は、断片的あるいは短時間の定常信号と見ることができ、隠れマルコフモデル（Hidden Markov Model、HMM）が適用可能である。すなわち、10ミリ秒程度の短時間でみた場合、音声信号は近似的に定常過程と見なすことができる。従って、音声を多くの確率過程のマルコフ連鎖と考えることができる。

また、隠れマルコフモデルによる音声認識は自動的にトレーニングされ、単純で計算量もそれほど多くない。音声認識について考えられる最も簡単な設定では、隠れマルコフモデルは10ミリ秒ごとに例えば13次元程度の実数値ベクトルを出力するだろう。このベクトルはケプストラム係数から成る。ケプストラム係数は短時間の信号のフーリエ変換にコサイン変換を使って、その第一（最大）係数を取り出したものである。隠れマルコフモデルは、それぞれの観測されたベクトルの尤度を与える対角共分散のガウス分布の混合ともいうべき確率分布を持つ傾向がある。各単語や各音素はそれぞれ独自の出力分布を持つ。単語列あるいは音素列に関する隠れマルコフモデルは、個々の単語や音素の隠れマルコフモデルを連結したものとなる。

これらが隠れマルコフモデルを使用した音声認識技術の概念である。音声認識システムにはこれ以外にも様々な技術を使用している。語彙の多いシステムでは、音素について文脈依存性を考慮する。また、話者間の違いや録音状況の違いを正規化するために、ケプストラムの正規化が行われる。他にも話者正規化の試みとして、男女間の正規化のための声道長正規化 (VTLN) や、より不特定多数の話者に対応するための最尤線形回帰 (MLLR) がある。
評価指標

音声認識は様々な指標を用いて性能を評価される。例えば速度は実時間係数 (real time factor, RTF)で表される。
単語誤り率

単語誤り率（英語版）（英: word error rate; WER）は認識された「単語」の誤り率である。WERを評価するための代表的なコーパスとしてWSJコーパス [4]が挙げられる。
文字誤り率

文字誤り率（英: character error rate; CER）は認識された「単語」の誤り率である。英: letter error rate; LER とも。WER評価と共に行われる場合が多い。2019年時点でのWSJコーパスに対するCERは1%を切っている [5]。
音素誤り率

音素誤り率（英: phoneme error rate; PER）は認識された「音素」の誤り率である。PERを評価するための代表的なコーパスとしてTIMIT（英語版）が挙げられる [6]。2019年時点でのTIMITコーパスに対するPERは10%を切っている [7]。
実際と課題

実地での音声認識利用には様々な難しさがある。以下はその一例である：

背後音

雑音

背景での会話

語彙

業務用語

 ジャーゴン

音声

同時話者数

発話方法（フォーマル、日常会話）

並列モデルは予想外の入力にもある程度対応できる [8]。
研究中の技術
 MFT

話者の音声の特徴量が雑音や特徴分離処理によって歪むと音響モデルとの差が開いて誤認識の元となる。得られた音声の特徴量に歪みや雑音がどの程度含まれているかを推定し時間軸と周波数軸に対して信頼度をマップとして持たせて、低信頼度の特徴量にはマスクをかけたり、失われた音声を復元する処理に活用するのがミッシング・フィーチャー理論（Missing feature theory）である [9]。
GSS

GSS（Geometric source separation）は複数の音源を分離する技術であり、音源間に相関が無ければ複数のマイクからの入力情報によって比較的簡単に音源分離とその位置情報（音源定位）が得られる。これをMFTの雑音情報として信頼度マップに反映させれば、騒音下や同時発話の状況でもそれほど認識率を落とさずに済む [9]。
実用例
 Apple社製品における利用

Macintoshでの音声認識機能は、1993年のQuadra 840AV/Centris 660AVより、PlainTalkとして搭載された。Mac OS 9では、音声認識パスワードによるログイン機能も搭載されている。macOS Sierraからは、音声認識アシスタント機能のSiriが搭載され、様々な操作が可能になった [10]。.mw-parser-output .ambox{border:1px solid #a2a9b1;border-left:10px solid #36c;background-color:#fbfbfb;box-sizing:border-box}.mw-parser-output .ambox+link+.ambox,.mw-parser-output .ambox+link+style+.ambox,.mw-parser-output .ambox+link+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+style+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+link+.ambox{margin-top:-1px}html body.mediawiki .mw-parser-output .ambox.mbox-small-left{margin:4px 1em 4px 0;overflow:hidden;width:238px;border-collapse:collapse;font-size:88%;line-height:1.25em}.mw-parser-output .ambox-speedy{border-left:10px solid #b32424;background-color:#fee7e6}.mw-parser-output .ambox-delete{border-left:10px solid #b32424}.mw-parser-output .ambox-content{border-left:10px solid #f28500}.mw-parser-output .ambox-style{border-left:10px solid #fc3}.mw-parser-output .ambox-move{border-left:10px solid #9932cc}.mw-parser-output .ambox-protection{border-left:10px solid #a2a9b1}.mw-parser-output .ambox .mbox-text{border:none;padding:0.25em 0.5em;width:100%;font-size:90%}.mw-parser-output .ambox .mbox-image{border:none;padding:2px 0 2px 0.5em;text-align:center}.mw-parser-output .ambox .mbox-imageright{border:none;padding:2px 0.5em 2px 0;text-align:center}.mw-parser-output .ambox .mbox-empty-cell{border:none;padding:0;width:1px}.mw-parser-output .ambox .mbox-image-div{width:52px}html.client-js body.skin-minerva .mw-parser-output .mbox-text-span{margin-left:23px!important}@media(min-width:720px){.mw-parser-output .ambox{margin:0 10%}}

この節の加筆が望まれています。（2021年10月）

Microsoft社製品における利用

Windows VistaとWindows 7では音声認識機能が搭載されており、この機能を使用して、キーボード入力なしにチャットをするなどの操作が可能となっている。音声認識機能でパソコンを操作するといった利用方法はこれまでにもあったが、日本語の認識率を向上させているほか、マウスやキーボードで行うWindowsの操作が音声で操作できるようになっている。Windows 10からはCortanaという音声認識アシスタント機能が搭載され、さらに様々な操作が可能になった。(Windows PhoneではWindows Phone 8.1から搭載されていた。)

マイクロソフト社は音声認識技術を開発するニュアンス・コミュニケーションズを買収している。
Google社の製品やサービスにおける利用

Size:30 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef