「読み上げソフト」はこの項目へ転送されています。耳が聞こえる視覚障害者向けにウェブサイトなどのコンピューター上の表示を読み上げるソフトウェアについては「スクリーンリーダー」をご覧ください。
.mw-parser-output .ambox{border:1px solid #a2a9b1;border-left:10px solid #36c;background-color:#fbfbfb;box-sizing:border-box}.mw-parser-output .ambox+link+.ambox,.mw-parser-output .ambox+link+style+.ambox,.mw-parser-output .ambox+link+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+style+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+link+.ambox{margin-top:-1px}html body.mediawiki .mw-parser-output .ambox.mbox-small-left{margin:4px 1em 4px 0;overflow:hidden;width:238px;border-collapse:collapse;font-size:88%;line-height:1.25em}.mw-parser-output .ambox-speedy{border-left:10px solid #b32424;background-color:#fee7e6}.mw-parser-output .ambox-delete{border-left:10px solid #b32424}.mw-parser-output .ambox-content{border-left:10px solid #f28500}.mw-parser-output .ambox-style{border-left:10px solid #fc3}.mw-parser-output .ambox-move{border-left:10px solid #9932cc}.mw-parser-output .ambox-protection{border-left:10px solid #a2a9b1}.mw-parser-output .ambox .mbox-text{border:none;padding:0.25em 0.5em;width:100%;font-size:90%}.mw-parser-output .ambox .mbox-image{border:none;padding:2px 0 2px 0.5em;text-align:center}.mw-parser-output .ambox .mbox-imageright{border:none;padding:2px 0.5em 2px 0;text-align:center}.mw-parser-output .ambox .mbox-empty-cell{border:none;padding:0;width:1px}.mw-parser-output .ambox .mbox-image-div{width:52px}html.client-js body.skin-minerva .mw-parser-output .mbox-text-span{margin-left:23px!important}@media(min-width:720px){.mw-parser-output .ambox{margin:0 10%}}
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)
出典検索?: "音声合成"
音声合成(おんせいごうせい、英: speech synthesis)とは、人間の音声を人工的に作り出すことである[1]。 ヒトは発声器官を通じて音声を生成し、コミュニケーションを行なう(会話や演説、講演、各種芸能およびその中継や録音・録画など)。この音声を人工的に生成するタスクが音声合成である。合成された音声を合成音声(ごうせいおんせい)と呼ぶ。 音声合成は様々な手法で実現できる。ある種の楽器は人の声に似た音を発し、また人の喉を模倣した機械に風を吹き込むことで人の声に似た音が生成できる。コンピューターを用い、音声情報処理の一種としてデジタル的に音声を合成することもできる。 2020年代においては、コンピューターを使えば実音声と聞き分け不可能な音声合成が可能になっている。さらに人工知能(AI)を用いることで、ある人物が実際には話していない発言を映像とともに偽造すること(ディープフェイク)や、自分の声を学習させて癌手術による声帯手術などで発声ができなくなった後でもスマートフォンに入力したテキスト文を自分の声色に似せて音声合成する技術[2]も実用化されている。 音声には言語内容・話者性・感情など様々な情報が含まれており、音声合成では望んだ属性をもつ合成音声の生成が求められる[3]。生成にあたり望む属性を外部から入力し生成がおこなわれる。テキスト(文章)を入力し、望む言語内容の音声を生成するタスクは テキスト音声合成(英: Text-To-Speech; TTS)と呼ばれる。歌声を合成するものは特に歌声合成と呼ばれる。また、音声を別の個人あるいはキャラクターの音声に変換する手法は声質変換と呼ばれる。 現代的な信号処理手法が発明されるずっと以前から、西アフリカのトーキングドラム等のように音声を模倣する試みがなされてきた。 1779年には、クリスティアン・クラッツェンシュタインにより母音を発声できる機械が製作された[4]。この流れはふいごを使った機械式音声合成器を作ったオーストリアのヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine(『音声の仕組みとしゃべる機械の解説』)を発表し、その機械について説明している。
概要
歴史