グーグルが音声生成に関する新しいクラウドサービスをローンチ

グーグルが音声生成に関する新しいクラウドサービスをローンチ
2018年4月11日 voicelife

グーグルが、音声生成に関する新しいテキストの読み起こしのクラウドサービスをローンチすることがわかりました。 グーグル傘下のディープマインド社によるグーグルの技術を活用したクラウドベースのニューラルネットワークに依存しているようです。カリフォルニアバークレー校の研究者が、Googleの機械学習式音声生成システムWaveNetを使用して今回のクラウドサービスを実現しているそうです。

グーグルのテキストの読み上げクラウドサービスは、30以上の自然言語を採用し、多言語化を進めています。

WAVENETを使用していない場合は、AmazonのPOLLYと同価格

今回の新しいGoogleクラウド音声生成ソリューションは、標準か、もしくはWaveNetの音声を使用するかどうかに応じて、最大100万または400万文字の無料枠を提供し、それ以上になるようであれば、100万文字あたり4ドルまたは16ドルの料金を提供します。これはかなりの価格破壊であり、多くの開発者がスピーチ合成コストなしで新しいソリューションを使用できるようになります。ただし、Googleのクラウドプラットフォームの処理コストがかかる可能性があります。

標準音声の価格帯は、AmazonがPolly音声合成サービスで提供している仕組みと似ており、Pollyでは、1年間に最大500万文字/月の無料版が提供されますが、その後は100万文字あたり4ドルの料金がかかります。

平均的な電子メールメッセージは3,100文字で、約$0.02の費用がかかり、約4分間のスピーチが含まれますが、典型的なニュース記事は約6,500文字で、約9分のスピーチに変換され、$0.03です。 Amazon Pollyの合成音声では、ある本におけるページ数が224ページで約600,000文字を持っている場合、これは約13時間50分のスピーチで、Pollyには2.40ドルの読み起こし費用がかかります。

PollyとGoogle Standardの音声が同じように価格設定されていることを考えると、若干WaveNetに向く可能性があります。それはより人間味のある、と言う点においてです。

WaveNetは、機械学習を使用してゼロから音声を生成します。それは実際の人間のこれまで蓄積された巨大なデータベースから波形を分析し、毎秒24,000サンプルのレートで再作成します。最終結果には、リップスマックやアクセントのような微妙な声が含まれています。

次に行われるのは「音声合成」

スマートスピーカの売れ行きに気を良くしたのか、はたまたはロボットや人工知能へ依存させるための布石なのか、Googleの動きは、Google Assistant、Amazon Alexaなどの音声アプリケーションを通じて、より豊かなユーザーエクスペリエンス(UX)のためのオプションを提供するためとしています。

今日の音声アプリケーションの多くは、標準のGoogleアシスタントの音声や、テキストから音声への変換のためのAlexaの音声を利用しています。しかし、音声アプリケーションがすべて同じ音声を使用している場合には、それはあまり差別化されないため、差別化させるための最も豊かなUXは、声優を使ってコンテンツを読むことです。

しかし、膨大なコンテンツや定期的に変化するコンテンツを持つ多くの音声アプリケーションでは実用的ではなく、高価になる可能性もあります。技術革新が始まることを祈りましょう。と言うより、本当に人間が人工知能に依存し始めている点が少し怖いですね、全て彼ら(Google、amazon、baiduやsamsungなど)の元に集約されてしまうのでしょうか?

参照:voicebot