Amazon EchoやGoogle Homeの音声に、例えば好きな声優やタレント、もしくは自分の母親など、投影してみたいですよね。昨年に2017年に、モントリオール大学の学生が開発した「LYREBIRD」というフレームワークがあります。この機能によってバラクオバマやトランプ大統領など、著名人の音声を複製することができます。複製された会話は、まだ未発達でその人の声じゃないとわかりますが、特筆すべきなのは、各人の声の独特な特徴を捉えているということです。
いかがでしょうか?トランプとオバマさんの声の特徴を捉えていますよね。LYREBIRDは開発して以来、多くの製品を立ち上げ、この合成音声で、Twitterのデモページを読み上げてくれる機能を開発しています。 独自のデジタル音声を作成することも可能とのことで、あなただけの好きな音声にするのです。 LYREBIRD社は、音声クローンを生成するために録音する音声は1分間のみ必要とする、と主張しているが、実際は同社のベータ版だと、長いこと数分間の音声キャプチャを拾うことで、より魅力的なファクシミリを作成することが可能ともしています。
百度の複製音声研究によって、さらに精度は高まるか?
Baiduは、各学術機関と提携して、音声のクローン化と、その技術を新しいものに応用できないか、可能性を開く研究を行なっています。例えば、既存のスピーカーから声のアクセントを変更できるかどうか、どのくらいの音声データでクローン化が実現できるかなどです。
研究者は、音声のニューラルクローニングシステムを構築するために、話す人間への適応テスト、そして話者の音声のコード化という2つの異なるアプローチを導入しています。スピーカーの適応には、さまざまな声でさまざまなスピーカーのモデルを訓練することが含まれ、研究チームはこれを実施するために2,484人のスピーカーを含む中オープンソースの音声認識モデル「Project DeepSpeech」の音声データセット「LibriSpeech」を用いた音声認識システムを用いてサンプル収集しています。
Baidu Researchの論文と共同研究者のSercan Arikは、スピーカーのエンコーディング方法は、音声アシスタントのようなスピーカーのための現実の生活で応用する方がはるかに有意性があり、簡単と話しています。そこのデータを採取して、クローン化などの発展的な技術に応用します。
スマートスピーカーによるデータ利用における懸念点
Baidu Researchの調査結果に関して、スマートスピーカーからのデータ採取やオーディオコンテンツのオープンソース化は個人情報の漏洩や問題に抵触するのでは?と指摘されています。例えば、Googleアシスタントがもつ音声データを、オープンソース化して誰でもオーディオコンテンツに基づいて人の声を合成したり、秘密に潜在的に会話を録音することができる使用方法について、危険ではないかとしています。
あとは百度と、LYREBIRDのコンセプトについても乖離があります。Lyrebirdは、話す能力を失った人々の声を再現することを目指し、技術を通して本物の声を表現することを目的にしています。Baiduは、この技術を消費者の音声アシスタントのパーソナライズするためにどのように使用できるか検討しており、どちらかというとメジャーでエンタメ系の要素が強いです。
今後の音声合成クローン化から目が離せませんね。
参照:百度ホームページ