Google翻訳よりも高性能? AI翻訳「DeepL」の驚異的な実力

Google翻訳よりも高性能? AI翻訳「DeepL」の驚異的な実力

  • 現代ビジネス
  • 更新日:2021/11/25
No image

インターネットによってグローバル化した昨今、母国語の違う外国人の方々とメールやチャットでやりとりする際、便利なのが無料翻訳サイトだろう。その最大手として上位に君臨するのは「Google翻訳」だが、その牙城を崩しつつあるのがドイツのケルンに本拠地を持つDeepL GmbH社が運営する翻訳サイト「DeepL」だ。

「そのまま送信できるかも」と思わせるほどの高品質な翻訳が評判のDeepL。ネット上でも「翻訳の自然さはGoogle翻訳より断然DeepL」と熱狂的な支持を示す人も多くなってきた印象がある。

No image

DeepLの実際の画面(https://www.deepl.com/ja/translator より)

そこで今回は、躍進続けるDeepLが他の自動翻訳サイトに比べて何がすごいのかを知るべく、翻訳通訳研究の専門家で、著書『自動翻訳大全』などでも知られる、立教大学異文化コミュニケーション学部の山田優教授にお話を伺った(以下、「」内は山田氏のコメント)。

飛躍的な進化を遂げた「AI翻訳技術」の秘密

DeepLの凄さを知る前に、まず機械翻訳機能、とりわけ近年話題になることも多い「AI翻訳」がなぜここ数年で伸びているのかについて教えていただこう。

「AIの学習システムのなかに『ニューラル学習』というものがあり、これが非常に発展したことが要因でしょう。

『ニューラル学習』とは、人間の脳の神経システムであるニューロンから着想を得たコンピュータの学習モデルです。原文と訳文が対になった対訳データからAI自らが単語の配列データの特徴や文構造を学習します。これを用いて翻訳をすると、自然な言葉の配列で後述の“流暢性”の高い翻訳できるので、より精度が上がるわけです。

そしてこの『ニューラル学習』の処理速度と精度を進化させるべく『自己注意機構(セルフアテンション)』といった仕組みを導入した『トランスフォーマー』や『BERT』といったシステムも登場し、近年のAI翻訳技術は飛躍的な向上を果たしました」

人間が脳内で自然にやっている“文脈で見分ける”という作業も、AIにとっては莫大な手間がかかる。

「例えば『Aさんはペットショップで小鳥を買った』という文があったとします。このとき『Aさんがペットショップで買った』という文だったとしても、多くの人は買ったものが動物だと想像できますよね。しかし、これまでのAIはここに野菜など程遠いものを持ってきてしまう可能性をなかなか排除できませんでした」

裏を返せば、ようやく「動物を買った」と問題なく判定できるようになるまで、AIが発達してきたということだろう。

カギは「良質なデータ」にあった

そのような近年のAI翻訳のなかでも、なぜDeepLはGoogle翻訳よりも優れていると称されるのかを伺おう。

「実はDeepLの具体的な仕組みは公開されていません。ですから、ここから申し上げることは最新の技術潮流からの予測です。

そのうえで言えるのは、まずDeepLの翻訳システムの根底になるAI技術は、Google翻訳と大きく変わらないでしょう。さらに言うなら、世界中の研究機関などで用いられている今のAI翻訳技術のベースは、どれもあまり変わらない。

No image

Photo by iStock

では、何がそれぞれの翻訳サービスの質を分けているのか。それは良質の学習データをたくさん所有しているかどうかでしょう。DeepL GmbHという会社は、もともと『Linguee(リンギー)』という、プロ翻訳者に対訳データを提供するサイトを運営していました。この運営経験のおかげで、利用者であるプロ翻訳家から収集した質の高い対訳データを大量に保有していたのです。

また、同社は“クローラー”と呼ばれる、ネット上に転がっている原文と対訳データを紐付けて収集する技術も開発しており、これを駆使して多くのデータを集めていたことも大きいでしょう」

良質の学習データとは、具体的にどういうものなのだろう。

「専門分野に特化した対訳データということです。つまり、PC分野の翻訳をしたいとなれば、PC分野の対訳データを持っていたほうが、その業界内で使われる言い回しや表現がより正確になるわけです。PCの分野で“マウス”が“ねずみ”と訳されるのが減る、などがいい例ですね。

また、これはあくまで噂で聞いた話ですが、DeepLはさまざまな分野に特化した翻訳エンジンをたくさん持っているようです。これはドメインアダプテーションというもので、翻訳するシステムを一つに集約せず、原文が入力された時点で文章の前後からどのジャンルの文章かを解析し、それに特化するチューンがなされたエンジンで翻訳するというものです」

No image

Photo by iStock

山田氏は、分野に特化した対訳データを有していることが、DeepLの文章の“流暢さ”にも繋がっていると分析する。

「先に少し触れましたが、往々にして言葉というものは正確性と流暢性で成り立っているものです。例えば『山田さんはここにきたかもしれないんだよ』という文章があったとき、正確性にあたる部分が『山田さんはここにきた』という部分であり、これがないと文章が成立し得ない情報の核です。

対して流暢性にあたるのが『かもしれないんだよ』という部分です。翻訳の分野ではこの正確性の追求は当然必要ですが、流暢性の部分にこそ“スムーズな翻訳”と受け取られる秘訣があるとされています。

DeepLは先に説明した分野特化の対訳データを有していたことで、数多くの口語表現や言い回しにおいて、秀でた流暢性を手にしているわけです。この流暢さには私も驚かされることも多く、時折DeepLの自動翻訳文を見て、専門分野ではこういった英語の表現を使うんだなと学べることもあるほどですね」

AI翻訳はどこまで発展するのか?

しかし山田氏は、そもそも人間が行う翻訳とAI翻訳はまるで違う作業であり、それこそがAI翻訳の弱点でもあると語る。

「シャイクスピアの『ハムレット』の有名な一節である『To be, or not to be, that is the question.』は、これまで多くの翻訳家が『生か死か、それが問題だ』と訳してきたわけですが、AI翻訳はそうした演劇史や翻訳の歴史のようなことは理解していません。

No image

Photo by iStock

人間が訳すときはシェイクスピアがどんな人物だったのか、物語の登場人物ならどういう口調になるだろうか、といった無数の“文化の文脈”を踏まえるわけです。翻訳にはこうした“文化の文脈”を優先した意訳という手法まであり、そのほうが伝わりやすい場合もありますよね。

一方のAI翻訳、とりわけ昨今の『ニューラル学習』は、すべての単語を一度数値に置き換えます。例えば『I love you』が100という数値に置き換えられていたとすると『I love him』は103というような感じで、言葉の意味の近さと数字の近似を連動させています。だからこそ、近い文脈の単語や表現を紐付けられるようになっているのですが、これは人間の思考の文脈とは全く異なるわけです。

おまけに、こうした数値に置き換えたときに、様々な理由からバグが起きて数字の一部でも欠けてしまうと、連動した文章がゴッソリ抜けて翻訳されないこともあります。人間が翻訳するときには起き得ない致命的なミスまで起きる可能性があるわけです」

破竹の勢いで翻訳業界を席巻しているAI翻訳だが、まだまだ改善点も多そうだ。これらを踏まえてAI翻訳、そして一般ユーザーの未来はどのように拓けていくのか。

「機械翻訳自体が今後どういう進化を遂げていくかは未知数です。ですが、それを利用していくユーザー目線で言えば、そもそも機械翻訳は不完全なものということを前提にしたプラットフォームが、当面は一般的になっていくのではないでしょうか。

手前味噌ですが私が開発にも関わっている自動翻訳ツール『YarakuZen(ヤラクゼン)』は、翻訳の前にユーザーが使うフレーズや用語集を登録してそれをベースに翻訳し、翻訳後もユーザーが文を修正することが前提になっているシステムです。このように機械翻訳は不完全なものということをベースにしたシステムやサービスが、頭角を現してくるのではないでしょうか」

山田氏は、AI翻訳の発展でプロの翻訳家はより高い専門性や文化の文脈を持つことを強いられていると言う。DeepLを筆頭に、AI翻訳が翻訳の簡便さと底上げをさらに推し進め、その訳文を、腕を磨いたプロがさらにブラッシュアップする。こうした共存スタイルが今後のスタンダードになるのかもしれない。

(文=TND幽介/A4studio)

この記事をお届けした
グノシーの最新ニュース情報を、

でも最新ニュース情報をお届けしています。

外部リンク

  • このエントリーをはてなブックマークに追加