id: E-32(誌面表示: E-32) · 物理ページ: 258–259(pages=2) · category: benchmark · figure_type: comparison · status: needs_review · evaluation_date: 2026-04-30
tagline 58/25-45 ↑13何を 105/60-200どこで 84/60-200会話例 40/25-50見1 28/15-40見2 30/15-40見3 34/15-40見4 31/15-40見5 36/15-40見6 23/15-50
← E-31 WebArena 目次 E-33 AgentBench →
ベンチマーク
258

GAIA

ガイア
General AI Assistants の略。人間が数分で解くタスクに AI がどこまで近づけるかを測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 3-5

何をしてくれるか

Meta(C-4)と Hugging Face(C-7)が 2023 年末に公開した、AI エージェントの実用能力を測る問題集です。Web 検索・PDF 読解・画像理解など複数ツール協調が要る 466 問・Level 1〜3 です。

どこで出会うか

AI エージェントのリリース記事や研究論文で「GAIA スコア」として登場します。公開時は GPT-4 約 15%・人間約 92%、2025 年には上位勢が 60% 台に到達しています。

イメージ
開発フローでの位置
課題設定
ベンチ選定
評価実行
比較分析
改善反映
2026.04·needs_review
「GAIA Level 3 で Manus が人間に迫ったニュースを社内に共有しました。」
GAIAの見方
259
この用語の見どころ
1
役割

AI エージェントの実世界タスク処理能力を測る問題集です。

2
うれしさ

人間基準との差が数値で見えるため、進化の速さを実感できます。

3
注意点

同名の別プロジェクトが複数あり、本書では Meta + HF 版を指します。

4
どこで役立つか

エージェント導入の判断材料として比較評価の場面で参照されます。

5
はじめに

Level と問題数(466 問)と人間スコア(約 92%)が理解の起点です。

6
深掘り先

WebArena、AgentBench、AGI

非エンジニアのつまずき
  • 今回初めて知った語で、ベンチマークの存在自体が遠く感じられました。
  • スコアが評価フレームワークで大きく変わり、単純比較が難しいです。
  • AGI 議論の参照に使われるとはいえ、どこまで AGI 判断に直結するか不明です。
私のコメント
  • 第一印象:今回初めて存在を知り、人間との差を測る指標として面白いと感じました。
  • 良い点:モデルの賢さを定量的に比べられ、人間スコアと並列で見られる点が有用です。
  • ダメな点:評価フレーム次第でスコアが大きく動き、いつまで参照できるか見極めが要ります。
  • 誰向けか:AGI 議論やモデル選定で「賢さの相場」を語りたい人にとって押さえどころです。
関連用語
備考

公開時スコア(2023 年末):GPT-4 約 15%、人間約 92% 2025 年時点スコア:Claude 3.5 / GPT-4o などで 35〜40% 台、Manus 系エージェントで…

E-32·benchmark
バイブコーディング図鑑