id: E-34(誌面表示: E-34) · 物理ページ: 262–263(pages=2) · category: benchmark · figure_type: comparison · status: needs_review · evaluation_date: 2026-04-30
tagline 31/25-45何を 73/60-200どこで 88/60-200会話例 49/25-50見1 23/15-40見2 25/15-40見3 37/15-40見4 31/15-40見5 33/15-40見6 23/15-50
← E-33 AgentBench 目次 E-50 Chatbot Arena →
ベンチマーク
262

OSWorld

オーエスワールド
OS 全体を操作できるかを測るエージェント向けベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 4-5

何をしてくれるか

2024 年 4 月公開のベンチマークで、実 OS 環境で 369 タスクの到達度を測ります。スクリーンショットを入力してキーやマウス操作で答える形が特徴です。

どこで出会うか

Computer Use の性能比較記事で登場します。公開時は GPT-4V 約 12% に対し人間 約 72% でしたが、Computer Use や Operator の登場でスコアが伸びています。

イメージ
開発フローでの位置
モデル選定
環境構築
タスク実行
スコア集計
2026.04·needs_review
「OSWorld で Computer Use が 30% を超え、Operator と接戦している印象です。」
OSWorldの見方
263
この用語の見どころ
1
役割

OS 全体の操作を 369 タスクで定量評価します。

2
うれしさ

「画面を見て操作する AI」の進歩を数値で追えます。

3
注意点

VLM 版とテキストのみ版でスコアが異なり、比較条件を揃える必要があります。

4
どこで役立つか

Computer Use 系ツール選定の参考指標として役立ちます。

5
はじめに

369 タスク・実 OS 環境・スクリーンショット入力の 3 点が要点です。

6
深掘り先

WebArena、AgentBench、VLM

非エンジニアのつまずき
  • 聞いたことはあっても、何を測っているのか把握できていません。
  • スコアが何 % あれば実用かの相場感が、感覚として持てません。
  • VLM 版とテキスト版でスコアが分かれ、引用時の条件揃えが難しいです。
私のコメント
  • 第一印象:見かけた程度でしたが、Computer Use の進歩を測る重要な指標だと知りました。
  • 良い点:実 OS 環境の操作タスクで、AI の実用度を肌感覚に近い形で評価できる点です。
  • ダメな点:評価条件が複数あり、人間超え報告も出ているため絶対視は危ういです。
  • 誰向けか:Computer Use 系ツールを比較したい人や、AI 進歩を定点観測したい人向けです。
関連用語
備考

VLM(Vision Language Model)使用版とテキストのみ版では条件が異なるため、同一条件での比較が重要。

参考 (未記入) checked —
E-34·benchmark
バイブコーディング図鑑