「AIスピーカー」でなく「スマートスピーカー」と呼ぼう

「AIスピーカー」でなく「スマートスピーカー」と呼ぼう

  • マイナビニュース
  • 更新日:2017/11/14
No image

●なぜ「AIスピーカー」は適切でないのか

11月8日、Amazonがスマートスピーカーの本命と目される「Amazon Echo」の日本での提供開始を発表した。LINEやGoogleはすでに日本でのビジネスをスタートしており、Amazonは最後発になるが、これで主なプラットフォームが出そろったことになる。海外に遅れること1年以上、日本でもようやくスマートスピーカーと、それにともなう「音声アシスタント家電」の市場が始まろうとしている。

だが、ひとつ気になることがある。

新聞やテレビなど、多くのメディア(特に一般向けのメディア)では、「スマートスピーカー」ではなく「AIスピーカー」という用語が使われている。日本ではすでに「AIスピーカー」の呼称が支配的になりつつあり、ネット検索の量を可視化する「Googleトレンド」で調べてみると、「AIスピーカー」が「スマートスピーカー」を凌駕している(図1)。

特に気にも止めない方も多いかもしれないが、筆者はこの傾向を強く憂慮している。現在のスマートスピーカーを「AIスピーカー」と呼称するのは適切ではないと思うからだ。このまま定着すると、禍根を残す可能性がある。

なぜそう思うのか、筆者の考えを解説してみたい。

○「AIスピーカー」は日本でしか通じない言葉

スマートスピーカーが何かは、そろそろみなさんもご存知のことかと思う。ネットに接続され、音声アシスタントを介して人とコミュニケーションをとりながら動く機器のことだ。これが「AIスピーカー」と呼ばれるのは、音声アシスタントが声を聞き取り、その内容を解釈して答えるためだろう。「AIが答えてくれるスピーカーだから、AIスピーカー」という発想によるものと思われる。

これは一見妥当に見えるが、かなり問題が多いと筆者は考える。理由は主に2つある。シンプルな理由から説明しよう。

そもそも「AIスピーカー」という言葉は、世界的に見ればほとんど使われていない言葉だ。なにしろ、各社とも発表時のプレスリリースでは、そろって「スマートスピーカー」という言葉を使っており、「AIスピーカー」という呼称は使っていない。

プレスリリースの表現に従えば、「スマートスピーカー『Clova WAVE』、本日より正式発売」(LINE 10月5日付プレスリリースより)、「Google Home は、Google アシスタントを搭載し、音声で動作するスマートスピーカーです」(Google 10月5日付プレスリリースより)となっている。Amazonはプレスリリース中では「スマートスピーカー」という表記を使っていないものの、同社製品ページ中では「音声だけでリモート操作できるスマートスピーカーです」と表記している。

もう少し傍証を挙げよう。

図2は、Googleトレンドで、過去12カ月の間に、「AI Speaker」と「Smart Speaker」が検索された量を比べてみた図だ。英単語にしているのはもちろん、日本語以外での傾向を見るためである。結果は日本のものとはまったく違う。「AIスピーカー」は完全に少数派であり、「スマートスピーカー」が主流である。

これが、スマートスピーカー市場の中心であるアメリカになると、もっとはっきりする(図3)。実のところ、筆者もアメリカ取材中に「スマートスピーカー」という言葉は日常的に耳にするが、「AIスピーカー」という言葉はほとんど聞いたことがない。

海外で定着した言葉があり、メーカー側もあまり使っていない言葉が勝手に広まり、日本独自の一般名詞として定着するのはいいことなのだろうか? 「スマートスピーカー」という言葉がとても難しく、日本では定着し得ない言葉ならばしょうがないと思うが、決してそうではあるまい。

●現状のスマートスピーカーはまだ「インテリジェント」ではない

○特定の言葉にしか反応しないスマートスピーカー

「日本だけ別の言葉になることに何の問題があるのか」と思われるかもしれない。しかし、ことはもう少し複雑だ。そもそも、現在の音声アシスタントやスマートスピーカーに「AI」とつけることは、ほんとうに正しいのだろうか? 筆者にはそこに大きな疑問がある。

確かに、スマートスピーカーに使われている音声アシスタントは、過去に比べ非常に高い精度で音声を聞き取ってくれるようになった。もちろん完璧ではないが、5年前や10年前には望むべくもなかった精度のものが、スマートフォンやスマートスピーカー、テレビなど多数の機器で当たり前のように使われている。音声合成の品質も上がり、かなり自然な応答をしてくれるようになった。

だが、「音声を認識してくれること」「音声合成で応答してくれること」は、AIとイコールではない。いまの「AI」は非常に曖昧で広い意味に使われており、こうした機能をAIのように扱うこともあるが、実際にはちょっと違う。

現状スマートスピーカーが搭載しているのは、あくまで「認識」や「合成」の技術であり、それは知性の手前にあるものだ。AIと呼ばれる技術と地続きのものではあるのだが、「話し言葉を文章に変換する」ことが「インテリジェンス」なのかと言われると、「ノー」と言わざるを得ない。

現状の音声アシスタントは、音声から認識した言葉の中のキーワードに反応して動いているようなところがある。だから、語尾が変わっただけで反応できないこともあるし、人間ならば文脈を読んで対応してくれそうなところで、妙に厳格だったりする。

特に、Amazonの音声アシスタントであるAlexaでは「Skill」、Googleアシスタントでは「Actions on Google」と呼ばれる外部サービスの扱いを見れば、その正体がよくわかる。

Skillの場合には、例えば「Alexa、<Skillが定めたキーワード>を開いて」と言うことで、特定のSkillを呼び出す。「開いて」という言葉で外部サービスにデータを渡すことを確定させた上で、特定のキーワードや名前をサービスに渡し、処理してもらう形になっているわけだ。これはActions on Googleでも同じで、「ねぇGoogle、<Actionが定めたキーワード>と話す」ということで、外部サービスを呼び出す手順になっている。

この流れは、ウェブサービスにキーワードを入れたり、特定の選択肢を選んだりした時と近い。もっと言えば、MS-DOSやUnixのコマンドラインの考え方にも似ている。それを自然な音声で行えるようになったのは進歩だし、外部サービスとうまく連携する市場が形作られていくことには、大きな可能性があると思う。

だが現状、結局は「Skillを呼び出す書式」を覚え、なにができるかを記憶しておく必要があるわけでは、それはやはり「知的」な反応とはとてもいえない。

○AmazonやGoogleは決して「AI」と呼ばない

筆者はアメリカでEchoを購入し、登録しているが、Amazonから毎週「Echoでこれをやってみよう」という内容を知らせるメールが届く。スマートスピーカー先進国であるアメリカですら、「スマートスピーカーになにを話すとなにをやってくれるか」を周知する必要がある段階で、人間の話した言葉に自由に対応できる状況にはない。

そのためか、AmazonもGoogleも、「AI」という言葉の使い方にはかなり慎重になっているようだ。その証拠に、AmazonもGoogleも、EchoやGoogle Homeのプレスリリースの中で、一度として「AI」という言葉を使っていない。すなわち、スマートスピーカーを構成する要素は「まだAIではない」と考えているのだ。

それに対しLINEは、音声アシスタントである「Clova」をはっきり「AIアシスタント」と呼んでいる。10月5日の製品発表時は「スマートスピーカー」だったが、2週間後にCMを告知するリリースでは「AIスピーカー」に変わっている。呼び方の判断は各社それぞれだが、音声認識への反応精度で他社に遅れをとっている状況で1社だけ「AI」を連呼するのは、少々バランスが悪いのでは……と筆者は考える。

○現状のスマートスピーカーはまだ「インテリジェント」ではない

現状、スマートスピーカーの能力を決めるのは、プラットフォーマーが仕込んだ機能の多彩さや、パートナーと組んで作った特別な機能の使い勝手の良さではないかと思っている。

そうした部分は、エンジニアやサービス企画者が知恵を絞って「仕込む」部分であり、機械が臨機応変に判断して対応しているわけではない。そこで得られる結果は「スマート(便利)」なものではあっても、「インテリジェント(知的)」なものではない。

筆者が「スマートスピーカー」を「AIスピーカー」と呼ぶべきではない、と考えるのは、結局この点に尽きる。

音声アシスタントは、今後どんどん進化する。音声認識や音声合成の精度が進化するのはもちろんのこと、認識後に「利用者がなにを望んでいるのか」を理解するための、語彙解釈や文脈解釈の能力も同様に向上していくはずである。

進化を続けていった先に、きちんと文章の中身を解釈し、言い回しや語順が異なったり、一部に「あれ」のような代名詞を含んだあいまいな言い回しがあったとしても、人間のように解釈できる音声アシスタントの時代がやってくるだろう。

外部サービスに情報を渡す時にも、特定のやり方で伝えるのではなく、ごく自然に話せば「では、○○におつなぎしますね」という形でサービス連携ができる時代がやってくる。当然各社は、そうなる未来を思い描いている。

○「本当のAIの時代」まで言葉はとっておこう

これからのユーザーインタフェースは、「ソフトやサービス側がユーザーのやりたいことを理解して、操作の手数を減らす」形のものが主流になる。機器は変わったが、我々は毎日同じアプリを開き、同じ操作をし、同じ場所をタップしている。そうした操作は、学習によってソフトウエアが学んでいくことで、ある程度自動化できるはずだ。

音声アシスタントは、そうした自動化の中にあるトレンドであり、「画面のタップやマウスのクリックの代わりに、音声である程度の作業をしてもらうこと」と定義することができる。

本当に音声アシスタントが多用される時代がきたり、ディスプレイがVR空間に描かれる時代が来るならば、そこでは「ユーザーがなにをしたいのか」「なにをしてくれるとありがたいのか」を把握して動く必要がある。

大量の曖昧なデータから自分に必要なものを抽出して適切な処理を行う必要もある。それがまさに「AI」の仕事であり、現在の音声認識・画像認識の先にあるものだ。

音声アシスタントを「AI」と呼び、スマートスピーカーを「AIスピーカー」と呼ぶのは、そういう「認識を超えた判断」、別の言い方をすれば「ユーザーの空気を読むインタフェース」の時代が来た時で十分なのではないか。

音声アシスタントやスマートスピーカーについては、日本語よりも研究開発が進んだ英語を軸にした市場ですら「期待外れ」「賢くない」との批判がある。非常に複雑な要素が絡み、事例の蓄積もまだ少ない日本語ではなおさらだろう。AIという言葉に期待した人々が幻滅し、製品の可能性を毀損してしまうのではないか……。そんな風に思う。

勝手に言葉を作って勝手に期待し、本来生まれる可能性のある市場をスポイルした上に、「AI」という言葉を摩耗させてしまうことや、将来に大きな禍根を残すことは、なんとしても避けたいと思うのだ。

この記事をお届けした
グノシーの最新ニュース情報を、

でも最新ニュース情報をお届けしています。

外部リンク

IT総合カテゴリの人気記事

グノシーで話題の記事を読もう!
「Firefox Quantum」は本当に優れたウェブブラウザなのか?
Windows 10の無料アップグレードは2017年大晦日まで
シリコンバレーで見たAIとIoTビジネスの未来【1】
オンキヨー、PC不要でハイレゾ音源を直接ダウンロードできるネットワークCDレシーバーを発売
auがオリジナル4G LTEケータイを含む2017冬モデルを発売
  • このエントリーをはてなブックマークに追加