ベンチマーク

WebArena

ウェブアリーナ

Web ブラウザ上で動く AI エージェントの実用度を測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2-3

カーネギーメロン大学が 2023 年に発表したベンチマークです。Docker で再現した 5 種の擬似 Web サイトに自然言語タスク 812 個を与え、AI エージェントの完了率を計測します。

ブラウザ操作系エージェント（Operator・Computer Use 等）の性能比較記事で頻出します。「WebArena スコア XX%」という共通指標で各サービスの実用度を横並びに比べる際に使われます。

イメージ

開発フローでの位置

エージェント選定

→

環境構築

→

タスク実行

→

完了率集計

→

比較・報告

2026.04·needs_review

「WebArena のスコアで Operator が頭一つ抜けたらしいですね。」

WebArenaの見方

257

この用語の見どころ

役割

ブラウザ操作エージェントの完了率を共通スケールで測ります。

うれしさ

実サイトに近い環境でテストするため、スコアが実用度に直結しやすいです。

注意点

Docker のローカル再現環境のため、実本番サービスへの影響はありません。

どこで役立つか

エージェント選定時に各サービスの実力を横並びで比較できます。

はじめに

Docker 擬似環境・812 タスク・完了率の 3 点を押さえれば読み解けます。

深掘り先

GAIA、AgentBench、OSWorld

非エンジニアのつまずき

私のコメント