id: E-31(誌面表示: E-31) · 物理ページ: 256–257(pages=2) · category: benchmark · figure_type: structure · status: needs_review · evaluation_date: 2026-04-30
tagline 35/25-45何を 87/60-200どこで 99/60-200会話例 37/25-50見1 29/15-40見2 35/15-40見3 37/15-40見4 30/15-40見5 37/15-40見6 23/15-50
← E-30 TAU-Bench 目次 E-32 GAIA →
ベンチマーク
256

WebArena

ウェブアリーナ
Web ブラウザ上で動く AI エージェントの実用度を測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2-3

何をしてくれるか

カーネギーメロン大学が 2023 年に発表したベンチマークです。Docker で再現した 5 種の擬似 Web サイトに自然言語タスク 812 個を与え、AI エージェントの完了率を計測します。

どこで出会うか

ブラウザ操作系エージェント(Operator・Computer Use 等)の性能比較記事で頻出します。「WebArena スコア XX%」という共通指標で各サービスの実用度を横並びに比べる際に使われます。

イメージ
開発フローでの位置
エージェント選定
環境構築
タスク実行
完了率集計
比較・報告
2026.04·needs_review
「WebArena のスコアで Operator が頭一つ抜けたらしいですね。」
WebArenaの見方
257
この用語の見どころ
1
役割

ブラウザ操作エージェントの完了率を共通スケールで測ります。

2
うれしさ

実サイトに近い環境でテストするため、スコアが実用度に直結しやすいです。

3
注意点

Docker のローカル再現環境のため、実本番サービスへの影響はありません。

4
どこで役立つか

エージェント選定時に各サービスの実力を横並びで比較できます。

5
はじめに

Docker 擬似環境・812 タスク・完了率の 3 点を押さえれば読み解けます。

6
深掘り先

GAIA、AgentBench、OSWorld

非エンジニアのつまずき
  • 今回初めて知った語で、ベンチマークがあること自体に気づくのが入口です。
  • 何 % あれば実用的なのか、相場感や人間との比較が直感的に分かりません。
  • ベンチマーク自体が陳腐化していくので、いつまで参照してよいか判断が難しいです。
私のコメント
  • 第一印象:今回初めて存在を知り、エージェント評価の入口になる語と感じました。
  • 良い点:Web 操作などエージェント的タスクの実用度を共通スケールで比べられる点です。
  • ダメな点:ベンチマーク自体の陳腐化が進み、いつまで指標として有効かが見えにくいです。
  • 誰向けか:モデルや AI サービスの性能を比較したい人が押さえておきたい指標です。
関連用語
備考

公開時(2023 年)の GPT-4 スコアは約 14%。

参考 webarena.dev checked 2026-04-30
E-31·benchmark
バイブコーディング図鑑