マイクロソフトの音声認識技術、「人間並み」に到達

マイクロソフトの音声認識技術、「人間並み」に到達

  • TechCrunch
  • 更新日:2016/10/20
No image
No image

マイクロソフトリサーチ(Microsoft Research)にとっては、おめでたい日となったことだろう。研究を続けてきた音声認識技術が、ついに人間レベルに到達したのだ。

具体的にいうならば単語誤り率(word error rate)が5.9%となったのだ。これはプロの口述筆記者と同じレベルとなる。すべてを完璧に聞き取るわけではないが、94%の正確性があれば、十分に会話についていくことができるのだ。

「これは20年間続けてきた研究の賜物です」と研究社のひとりであるGeoffrey Zweigはブログ記事の中で述べている。

No image

マイクロソフトのSpeech & Dialog研究グループ

音声認識の分野では、この10年間にわたって多くの技術系の大手企業や研究機関が競い合ってきた。ここ数年は、その実力も大いに向上してきているところだった。そして音声認識に(ご想像通り)ニューラルネットワークと機械学習の技術を組み合わせることで、新たな段階に達することとなったのだ。

「進化をもたらしたのは慎重なエンジニアリングと、Convolutional(畳み込み)とRecurrent(再帰)ニューラルネットワークの最適化である」と論文の中に記されている。「音響モデル(acoustic models)を進化させて、音響コンテクスト(acoustic context)の理解につなげることができたのです」。

認識システムの構築には、マイクロソフトがオープンソースで提供しているComputational Network Toolkitを利用しており、これが存分にその能力を発揮しているのだそうだ。

もちろん、5.9%という単語誤り率は最適な環境で実現されたものだ。ノイズの多い環境などでは、その性能は大きくおちることとなる。またアクセントの変化にも十分に対応することができないようだ。しかし、たとえばアクセントへの対応などは、トレーニング用のデータセットをニューラルネットワークに組み込むことで、比較的容易に対応することができるだろうとのこと。

マイクロソフトリサーチの研究社の方々にはおめでとうを伝えたい。しかしここがゴールというわけではないのだろう。コンピューターは、いくつかの分野では既に人間を上回る能力を示しつつある。きっと音声認識についても同様な成果を達成することとなるのだろう。ちなみに、大きく進化した音声認識ぎじゅつがコンシューマープロダクトに活かされる時期などについては、いまのところはまだ不明であるそうだ。

原文へ

(翻訳:Maeda, H

この記事をお届けした
グノシーの最新ニュース情報を、

でも最新ニュース情報をお届けしています。

IT総合カテゴリの人気記事

グノシーで話題の記事を読もう!
女の子にマッサージも アダルトゲーム「VRカノジョ」が最新VRコントローラー対応で、“手”で触れるプレイが可能に
飛行機から撮影された「雲を突き抜ける謎のポール」! 高さ1400メートル以上、月と地球を繋ぐコードか?
ショルダー、トート、リュックで使えるMA-1素材の3WAYビジネストート
AmazonサイバーマンデーセールにAnkerが登場!バッテリーやスピーカー、伝説のポータブル電源まで3日間日替わりでセールを開始!
日本の不思議な音響技術がつまったスピーカー「pavé」を聞きに行ってみた
  • このエントリーをはてなブックマークに追加