Googleら、テキストから機械学習を使って人間のようなスピーチを生成する人工音声生成モデル「Tacotron 2」を論文にて発表。サンプル音声あり

Googleとカリフォルニア大学バークレー校の研究者らは、テキストから訓練されたニューラルネットワークを使って人間のようなスピーチを生成する人工音声生成モデル「Tacotron 2」を論文にて発表しました。

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

Audioのサンプルはこちらから聞けます。


(Tacotron 2のアーキテクチャ)

本稿は、Googleの以前の機械学習音声生成プロジェクト「WaveNet」と「Tacotron」のアイディアを取り入れ改良した機械学習モデルを提案します。

本アプローチは、複雑な言語機能や音響機能を入力として使用するのではなく、スピーチの例とそれに対応するテキストだけを使って訓練し人間のようなスピーチをテキストから生成します。

精度が向上したとはいえ、複雑な言葉を発音するのが難しく、極端な場合には奇妙な音をランダムに生成することさえあります。また、リアルタイムで音声を生成することができません。楽しい音声や悲しい音声を出すなどの制御をすることもできません。これらは今後の課題としています。

関連

Apple、Siriのテキスト読み上げ音声合成技術(TTS)に関する詳細を公開。Deep learningを含むdeep MDNベースであり、iOS11にも搭載技術。前期OSとの比較音声あり | Seamless

ABOUT

 本サイト(Seamless/シームレス)は、2014年に始めた先端テクノロジーの研究を論文ベースで記事にしているWebメディアです。山下が個人で運営し、執筆を行っています。現在は主に寄稿(ITmedia NEWS)と、Seamless Journalに専念しています。

連絡先:yamashita(at)seamless.jp
Subscribe:TwitterFacebookHatenaNewsPicks

ゲスト連載:プロジェクションマッピング技術の変遷 岩井大輔

 Seamless Journalとは、月額10ドルの課金で厳選した最新論文がほぼ毎日メールボックスに届くというものです。記事にならない気になる論文をお届けします。決済はPatreonを介して、クレジットカードおよびPayPalで行え、解約も同サービスからいつでも可能です。お申し込みはこちらから

ページ上部へ戻る