ベンチマーク

GAIA

ガイア

General AI Assistants の略。人間が数分で解くタスクに AI がどこまで近づけるかを測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 3-5

Meta（C-4）と Hugging Face（C-7）が 2023 年末に公開した、AI エージェントの実用能力を測る問題集です。Web 検索・PDF 読解・画像理解など複数ツール協調が要る 466 問・Level 1〜3 です。

AI エージェントのリリース記事や研究論文で「GAIA スコア」として登場します。公開時は GPT-4 約 15%・人間約 92%、2025 年には上位勢が 60% 台に到達しています。

イメージ

開発フローでの位置

課題設定

→

ベンチ選定

→

評価実行

→

比較分析

→

改善反映

2026.04·needs_review

「GAIA Level 3 で Manus が人間に迫ったニュースを社内に共有しました。」

GAIAの見方

259

この用語の見どころ

役割

AI エージェントの実世界タスク処理能力を測る問題集です。

うれしさ

人間基準との差が数値で見えるため、進化の速さを実感できます。

注意点

同名の別プロジェクトが複数あり、本書では Meta + HF 版を指します。

どこで役立つか

エージェント導入の判断材料として比較評価の場面で参照されます。

はじめに

Level と問題数（466 問）と人間スコア（約 92%）が理解の起点です。

深掘り先

WebArena、AgentBench、AGI

非エンジニアのつまずき

私のコメント