id: E-51(誌面表示: E-51) · 物理ページ: 266–267(pages=2) · category: benchmark · figure_type: structure · status: needs_review · evaluation_date: 2026-04-30
tagline 44/25-45何を 73/60-200どこで 80/60-200会話例 38/25-50見1 27/15-40見2 28/15-40見3 41/15-40 ↑1見4 27/15-40見5 44/15-40 ↑4見6 40/15-50
← E-50 Chatbot Arena 目次 F-01 JavaScript →
ベンチマーク
266

LMSYS Arena

エルエムシスアリーナ
Chatbot Arena を立ち上げた研究グループ、およびそのプラットフォームの総称です。
体験区分:調査ベース 推奨読者レベル:Level 2-3

何をしてくれるか

LMSYS が運営する人手投票型モデル評価基盤です。匿名 2 モデルに同じ質問を投げて好みの回答を選び、ELO レーティングでリーダーボードを公開します。

どこで出会うか

新モデル記事で「LMSYS ランキングで上位」と紹介される場面が典型です。「LMSYS Arena」「LMArena」「Chatbot Arena」が混在しがちです。

イメージ
開発フローでの位置
候補絞り込み
名称照合
派生 Arena
自動ベンチ併用
2026.04·needs_review
「LMSYS Arena で Gemini 2.5 Pro が 1 位に上がってきました。」
LMSYS Arenaの見方
267
この用語の見どころ
1
役割

人手投票の ELO でモデルの「体感品質」を順位化します。

2
うれしさ

数値ベンチと違い、実用文脈の印象がスコアに反映されます。

3
注意点

LMSYS・Chatbot Arena・LMArena は別名で同系列のサービスです。

4
どこで役立つか

モデル選定時に「世間の体感評価」を一覧で確認できます。

5
はじめに

運営主体 LMSYS と Chatbot Arena(E-50)の関係を把握するのが出発点です。

6
深掘り先

Chatbot Arena、ELO レーティング、SWE-Bench Verified

非エンジニアのつまずき
  • 順位は分かっても、点数差がモデル差にどれだけ効いているか掴めません。
  • LMSYS・LMArena・Chatbot Arena など呼び名が混在して、同じ系列と気づきにくいです。
  • 順位が週単位で入れ替わるため、最新を追わないと話題に乗り遅れます。
私のコメント
  • 第一印象:Chatbot Arena の時代から見ていて、統合や派生で動きが激しい印象です。
  • 良い点:人の評価が入るため、定性的な使用感が反映されて選定の手がかりになります。
  • ダメな点:順位は分かっても点数差の意味が読み取りにくく、定量補完が要ります。
  • 誰向けか:今どのモデルが強いか、最新の体感ランキングを追いたい人に向く指標です。
関連用語
備考

LMSYS の正式名: Large Model Systems Organization。

参考 lmarena.ai checked 2026-04-30
E-51·benchmark
バイブコーディング図鑑