対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン

対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン

  • GIGAZINE
  • 更新日:2023/05/26
No image

カリフォルニア大学バークレー校の学生と教員がカリフォルニア大学サンディエゴ校とカーネギーメロン大学と協力して設立したオープンな研究組織「Large Model Systems Org(LMSYS Org)」が、ChatGPTやPaLMVicunaなどのチャットAIや大規模言語モデル(LLM)のベンチマーク「Chatbot Arena」を公開しています。
Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org
https://lmsys.org/blog/2023-05-25-leaderboard/

No image

Chatbot Arenaでは、LLMベースの対話型AIを評価するためのオープンプラットフォーム「FastChat」にユーザーが招待され、匿名モデル2種類を相手に会話を行い、どちらの方がより精度が高かったかの投票が行われます。この投票結果から、チェスなどで広く使用されているイロレーティングに基づいた勝敗とレーティングが行われ、順位表が公開されます。
2023年4月24日から5月22日までに行われた2万7000票分の匿名投票データに基づく順位表が以下。1位はOpenAIのGPT-4をベースとするChatGPTで、2位と3位はOpenAIの競合企業であるAnthropicのClaude-v1とその軽量モデルでした。
順位モデルイロレーティング解説1GPT-41225GPT-4ベースのChatGPT2Claude-v11195AnthropicのチャットAI3Claude-instant-v11153Claudeの軽量化モデルでより高速かつ低コスト4GPT-3.5-turbo1143GPT-3.5ベースのChatGPT5Vicuna-13B1054LLaMAから微調整されたチャットAI、パラメータ数130億6PaLM 21042GoogleのチャットAI「Bard」と同じく「PaLM 2」をベースにしたチャットAI.7Vicuna-7B1007LLaMAから微調整されたチャットAI、パラメータ数70億8Koala-13B980GPT-3.5 TurboがベースのチャットAi9mpt-7B-chat952MosaicMLのオープンソースLLM「MPT-7B」ベースのチャットAI10FastChat-T5-3B941LMSYS orgが開発したチャットAI11Alpaca-13B937MetaのLLaMAをファインチューニングしたLLM「Alpaca 7B」ベースのチャットAI12RMKV-4-Raven-14B928Transformer採用のLLMと同等のパフォーマンスを持つRNN採用LLMベースのチャットAI13Oasst-Pythia-12B921LAIONによるオープンアシスタント14ChatGLM-6B921清華大学によるオープンなバイリンガル対話言語モデル15StableLM-Tuned-Alpha-7B882Stablity AIの言語モデルベースのチャットAI16Dolly-V2-12B886Databricks MITによってチューニングされたオープンソースのLLMベースのチャットAI17LLaMA-13B854MetaのLLaMA-13BをベースにしたチャットAI
勝率を色で示した表が以下。勝率が高いほど青く、低いほど赤く表示されています。

No image

今回の結果で、LMSYS Orgは「Google PaLM 2」に注目しています。PaLM 2は順位表で見ると6位にランクインしており、勝率も決して低くありません。ただし、LMSYS Orgは「PaLM 2は他のモデルに比べて規制が厳しいようです。ユーザーが不確かな質問や答えにくい質問をした場合、PaLM 2は他のモデルと比べて回答を控える可能性が高くなります」と述べています。
例えば、Linuxターミナルやプログラミング言語のインタープリターをエミュレートするように要求すると、PaLM 2は拒否したそうです。さらに、LMSYS Orgは「PaLM 2の推論能力は十分ではない」と評価しています。
また、PaLM 2は中国語やスペイン語、ヘブライ語など英語以外の質問には回答しないという傾向も見られたそうです。英語で質問した場合のみを考慮した順位だと、PaLM 2は5位にランクインしましたが、英語以外で質問した場合の順位では16位に転落しました。

No image

そして、LMSYS Orgは、Vicuna-7Bやmpt-7b-chatといった比較的小型のLLMをベースにしたチャットボットの順位が高いことにも注目しています。パラメーターが2倍以上ある大きなモデルと比較した時、小型のモデルの方がパフォーマンスは有利であることが示されたそうで、LMSYS Orgは「LLMのパラメーター数のサイズよりも、高品質の事前トレーニングとファインチューニングのデータセットの方が重要なケースもあるようです」と述べ、モデルのサイズを削減するには事前トレーニングとファインチューニングで高品質なデータセットを用意することが重要なアプローチだと指摘しています。

この記事をお届けした
グノシーの最新ニュース情報を、

でも最新ニュース情報をお届けしています。

外部リンク

  • このエントリーをはてなブックマークに追加