ボイスチェンジャー (英: Voice changer) は音声を人工的に加工・変換するシステムである[1]。変声機や音声変換機とも呼ばれる。 人工的に音声を生成する音声合成のうち、音声を入力とし変換された音声を合成する(=音声を加工する)タスクを音声変換という[2]。ボイスチェンジャーは音声変換タスクを実行するシステム、すなわち入力された音声の響きを変化させて出力する機械やソフトウェアを指す[1]。「ボイス/声」が指すように、ボイスチェンジャーは音全般ではなく声を入力として言語内容を変えずに音の響き(例: 声質)のみを加工する[2]。 ボイスチェンジャーは様々な用途で利用される。 ボイスチェンジャーは様々なシステムで実現される。 フィクションではしばしばボイスチェンジャーが登場する。有名な例として、漫画『名探偵コナン』に登場する「蝶ネクタイ型変声機」がある。 音声変換(英: voice conversion)は入力音声がもつ特徴の一部を変換するタスクである[4]。 音声合成の一種であり、言語内容を維持したまま話者を変える話者変換[5]、声のトーンのみを変える感情変換など、様々なサブタスクに分類できる。話者性や音色を維持し言語内容のみを外国語に変えるタスクは音声翻訳タスクとも音声変換タスクとも捉えられる。ボイスチェンジャーは音声変換タスクを実現するシステムと解される。 様々な手法が存在し、実利用されている。以下はその一例である: パラレル音声変換(英: parallel VC)は同一内容・異スタイルの音声を利用可能な音声変換タスクである。パラレルデータを利用できないタスクは非パラレル音声変換(英: non-parallel VC)と呼ばれる。 より平易な言い方をすれば、パラレル音声変換は「同一文章を読み上げた別話者の音声を利用可能なVCタスク」である。パラレルデータは含まれる音素列の一致が保証されている。よって「正解」相当の変換先音声が与えられていると言える(c.f. 教師あり学習)。しかし発話タイミングや音素継続長の一致は保証されないため、単なるフレーム単位の教師ありスタイル変換として解くことは難しい[8]。 非パラレル音声変換では正解相当のデータが存在しないことになる。ゆえに信号処理的な固定変換をおこなったり、教師なし学習を用いたりする必要がある。 日本コロムビアが1972年に「ボイスチェンジャー」(商品名)という自動音声交換装置を開発・発売した[9]。
概説
定義
用途
匿名化: ニュースやワイドショーのインタビューにおける取材源の秘匿、一般人のプライバシー保護
エンタメ: 性別を変換した声による声劇(例: 男声→女声)
医療: 嗄声の定型発声化によるQOLの改善
形態
ハードウェアボイスチェンジャー
音響伝播: 空気を伝播する音波の共鳴による加工(例: 手を筒にして口の前に置くと声の響きが変わる)
アナログ音響信号処理: 電子回路によるアナログ音声信号の変換(参考: エフェクター)
ソフトウェアボイスチェンジャー: デジタル信号処理による音声変換[3]
利用例
フィクション
音声変換
手法
信号処理
PSOLA(利用例: 恋声 TD-PSOLA モード[6])
フェーズボコーダ(利用例: 恋声 Phase Vocoder モード[6])
機械学習
混合正規分布モデル[7]
ニューラルネットワーク
DDSP
パラレルデータ
商品名としての「ボイスチェンジャー」
脚注^ a b "ボイスチェンジャー(音声変換)とは,音声を人工的に加工・変換する技術である。(高道慎之介「音声アバターを選ぶ時代
Size:17 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef