誰でも100種類の声に変換できるAIボイスチェンジャーを使ってみたらこんな感じ

誰でも100種類の声に変換できるAIボイスチェンジャーを使ってみたらこんな感じ

  • GIGAZINE
  • 更新日:2020/09/15
No image

機械学習を中心とした研究開発とサービス応用を行うDwango Media Villageが、誰の声でもさまざまな音声に変換できる声変換システムを発表しました。

誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

https://dmv.nico/ja/articles/seiren_voice/

Dwango Media Villageが発表した声変換システムのデモ版となる「Seiren Voice」が、以下のサイトで公開されています。

Seiren Voice(AIボイスチェンジャー)

https://seiren-voice.dmvnico/

今回はFirefoxからサイトにアクセスしてみました。「録音」をクリックすれば、自分の声を録音することができます。

No image

マイクデバイスの使用許可を求めるポップアップが表示されるので、「許可する」をクリックすると、すぐに録音がスタートします。今回は、松尾芭蕉の名句「閑さや岩にしみ入る蝉の声」を朗読してみました。なお、デモ版ではあまり長い音声は変換できず、だいたい5秒程度までに収めるのがよいようでした。

No image

録音が終わると、録音・再生ボタンの右に録音した音声の波形が出現します。

No image

つぎに、読み上げたテキストを入力します。音声に合わせて読点を入れると、より精度が上がるとのこと。

No image

声は高い声から低い声まで100種類存在し、音声変換は同時に8人分行うことができます。100種類から自由に選択することもできますが、今回はプリセットの8人のままで変換することに。「変換開始」をクリック。

No image

変換が始まると、まず分析結果が表示されます。入力音声に対して、音素の変換結果、さらに抑揚検出結果が図で示されました。

No image

40秒ほど待つと、変換結果に動画が表示されます。その場で再生すると、自分の声と8種類の変換結果を聞くことができます。

No image

変換結果は以下から聞くことができます。声質によってクオリティは左右されますが、変換後の声は非常になめらかで、リアルタイム型のボイスチェンジャーにありがちなケロケロボイスにもほとんどなっていません。

誰でも100種類の声色に変換できるAIボイスチェンジャーで実際に声を変換するとこんな感じ - YouTube

動画はMP4形式でダウンロードが可能です。

No image

また、「変換結果を個別に表示」をクリックすると、各音声を個別に再生できるバーが表示されます。

No image

ボイスチェンジャーは「リアルタイム性」と「変換品質」のトレードオフがあります。一般的にはリアルタイムを重視したものが多く、品質を優先したボイスチェンジャーは少ないとのことで、Dwango Media Villageが目指したのが、「誰の声からでも、さまざまな人の声に変換できる」ボイスチェンジャーの開発でした。

Dwango Media Villageが開発した声変換システムは、リアルタイム性が求められがちなボイスチェンジャーではなく、入力した音声をアルゴリズムによって変換するというもの。ただし、音声変換を直接深層学習モデルで行うのではなく、「入力音声から音素と音高を抽出し、音高を変更してから、アルゴリズムで音素と音高から音声を合成する」という方法をとっているとのこと。これによって、アルゴリズムの深層学習に膨大な学習データや学習のやり直しを必要としないそうです。

ただし、この声変換システムでは、笑い声などの音素では表現できない声を変換するのは難しいそうで、エンターテイメントにどういった応用が可能なのかを視野に入れつつ研究を続けていくと、Dwango Media Villageは述べています。

この記事をお届けした
グノシーの最新ニュース情報を、

でも最新ニュース情報をお届けしています。

外部リンク

  • このエントリーをはてなブックマークに追加