2025年最新版:AIモデル性能比較の決定版を作ってみました
2025.06.25
AI業界の進化は加速する一方です。
5月版の記事から1ヶ月が経過し、この短期間で業界に革命的な変化が起きました。
Claude 4ファミリーの正式リリース、OpenAI o3とo4-miniの一般公開、そしてGemini 2.5シリーズの安定版提供開始など、まさに群雄割拠の様相を呈しています。
そこで今回、2025年6月25日時点での最新情報を徹底的に調査し、主要AIモデルの性能を5つの重要ベンチマークで比較した最新版の表を作成しました。
特に注目すべきは、Anthropic Claude 4シリーズが72.5%という驚異的なSWE-Benchスコアでコーディング分野のトップに躍り出たこと、そしてコスト効率においてもGemini 2.5 Flashが圧倒的な優位性を示していることです。
主要ベンチマーク別性能スコア比較表
国・地域 | モデル名 | MMLU (言語理解) |
SWE-Bench (コーディング) |
GPQA (科学推論) |
AIME (数学) |
HumanEval (コーディング) |
総合評価 |
---|---|---|---|---|---|---|---|
🇺🇸 アメリカ | Claude Opus 4 | 88.5% | 72.5% | 83.5% | 78.2% | 89.1% | ⭐⭐⭐⭐⭐ |
🇺🇸 アメリカ | Claude Sonnet 4 | 83.7% | 72.7% | 79.8% | 72.5% | 85.3% | ⭐⭐⭐⭐⭐ |
🇺🇸 アメリカ | Grok 3 | 79.9% | 推定65% | 84.6% | 93.3% | 推定82% | ⭐⭐⭐⭐⭐ |
🇺🇸 アメリカ | OpenAI o3 | 87.9% | 69.1% | 87.7% | 91.6% | 88.5% | ⭐⭐⭐⭐⭐ |
🇺🇸 アメリカ | OpenAI o4-mini | 85.2% | 68.1% | 81.4% | 93.4% | 83.2% | ⭐⭐⭐⭐⭐ |
🇺🇸 アメリカ | Gemini 2.5 Pro | 86.2% | 63.8% | 84.0% | 92.0% | 75.4% | ⭐⭐⭐⭐⭐ |
🇺🇸 アメリカ | Gemini 2.5 Flash | 80.9% | 58.2% | 76.3% | 83.5% | 72.1% | ⭐⭐⭐⭐ |
🇨🇳 中国 | DeepSeek R1-0528 | 84.9% | 55.7% | 78.5% | 87.5% | 79.3% | ⭐⭐⭐⭐ |
🇺🇸 アメリカ | Claude 3.7 Sonnet | 86.0% | 62.3% | 78.2% | 61.3% | 82.0% | ⭐⭐⭐ |
🇺🇸 アメリカ | GPT-4.1 | 90.2% | 55.0% | 66.3% | 48.1% | 85.0% | ⭐⭐⭐ |
🇫🇷 フランス | Gemini 2.5 Flash-Lite | 78.5% | 52.1% | 71.2% | 79.8% | 68.9% | ⭐⭐⭐ |
各ベンチマークの詳細解説
📊 MMLU(Massive Multitask Language Understanding)
評価内容: 57分野にわたる総合的な知識理解力を測定
問題例: 数学、歴史、コンピュータサイエンス、法律、医学など幅広い分野の多肢選択問題
人間専門家レベル: 約89.8%
注目ポイント: GPT-4.1が90.2%で最高スコアを維持していますが、Claude Opus 4とOpenAI o3も88%台後半の高いスコアを記録し、人間専門家レベルに迫っています。
💻 SWE-Bench(Software Engineering Benchmark)
評価内容: 実世界のソフトウェア開発・バグ修正能力
問題数: 2,294問(実際のGitHub Issueから作成)
特徴: DjangoやPythonライブラリの実際のバグ修正タスク
注目ポイント: Claude 4シリーズが大躍進!Sonnet 4が72.7%、Opus 4が72.5%という驚異的なスコアで業界トップに立ちました。
これは前世代の62.3%から10ポイント以上の大幅向上です。
🧪 GPQA(Graduate-level Physical and Quantitative Assessment)
評価内容: 博士号レベルの科学的推論能力(物理・化学・生物学)
問題数: 448問の高難度選択問題
人間専門家レベル: 約65-70%
特徴: Google検索でも解けない「Google-proof」な問題として設計
注目ポイント: OpenAI o3が87.7%を記録し、人間の専門家を大きく上回る一方、Gemini 2.5 Proも84.0%と優秀な成績を残しています。
🔢 AIME(American Invitational Mathematics Examination)
評価内容: 高度な数学的問題解決能力
レベル: 全米数学オリンピック予選レベル
トップ500レベル: 83%以上のスコア
注目ポイント: o4-miniとGrok 3が驚異的なスコアを記録!o4-miniが93.4%(AIME 2024)でトップ、Grok 3が93.3%(AIME 2025)で僅差の2位となり、数学分野での激戦を演出しています。
Gemini 2.5 Proも92.0%と高いスコアを維持。
🐍 HumanEval
評価内容: Pythonプログラミング能力
問題数: 164問の関数実装タスク
特徴: 実行可能なコードの生成能力を評価
注目ポイント: Claude Opus 4が89.1%で最高スコアを記録。
実践的なコーディング能力でもClaude 4の優位性が際立っています。
💰 コストパフォーマンス分析
🥇 Gemini 2.5 Flash – 圧倒的コスパ王者
- 価格: $0.15/$0.60(入力/出力 per 1M tokens)
- 特徴: 最安値でありながら80%台のMMLUスコア
🥈 DeepSeek R1-0528 – 中国発の高コスパ選択肢
- 価格: $0.55/$2.19(入力/出力 per 1M tokens)
- 特徴: オープンソースで84.9%のMMLUスコア
🥉 Gemini 2.5 Flash-Lite – 超高速・超低価格
- 価格: さらに低価格(具体的価格は要確認)
- 特徴: 高スループットタスクに最適
💸 プレミアム価格帯
- Claude Opus 4: $15/$75(最高性能だが高価格)
- OpenAI o3: $2/$8(6月に80%大幅値下げ実施)
- Grok 3: $3/$15(1Mトークンコンテキスト付き)
- OpenAI o4-mini: $1.10/$4.40(o3より10倍コスト効率)
- Gemini 2.5 Pro: $1.25/$10(バランス型)
🎯 用途別推奨モデル
🔬 研究・学術用途
- Grok 3 – 数学で93.3%、科学推論で84.6%の最高水準
- OpenAI o3 – GPQA 87.7%で博士レベルの科学的推論
- Gemini 2.5 Pro – 1Mトークンの巨大コンテキストで長文解析
- Claude Opus 4 – 持続的な長時間タスクに対応
💼 ビジネス・実用用途
- Claude Sonnet 4 – バランス良く無料でも利用可能
- Gemini 2.5 Pro – マルチモーダル対応で実用性抜群
- OpenAI o4-mini – コスト効率と性能のバランス
👨💻 プログラミング・開発用途
- Claude Opus 4 – SWE-Benchで世界最高の72.5%
- Claude Sonnet 4 – 72.7%でさらに上回る実用性
- OpenAI o3 – 69.1%で複雑な推論が必要なコーディング
- OpenAI o4-mini – 68.1%で高コスト効率
💡 コスト重視
- Gemini 2.5 Flash – 最高コスパで無料枠も充実
- OpenAI o4-mini – o3の10分の1価格で高性能
- DeepSeek R1-0528 – オープンソースで自由度最大
- Gemini 2.5 Flash-Lite – 超高速処理が必要な場合
📈 2025年6月のAI業界トレンド
🔥 主要な変化
Grok 3の衝撃デビュー: xAIがAIME 2025で93.3%という驚異的スコアを記録し、数学分野で新記録を樹立(ただしベンチマーク論争も発生)
o4-miniの破格コスパ: OpenAI o3の10分の1価格でありながら、数学では93.4%を記録し、実用性と経済性を両立
推論モデルの標準化: 「思考」機能が全ての主要モデルに実装され、単なる「答え」から「推論プロセス」へとシフト
コンテキスト革命: Gemini 2.5 Proの1M(2M予定)、Grok 3の1Mトークンが実用的な長文処理を可能に
価格破壊の進行: OpenAI o3が80%値下げ、o4-miniの10倍コスト効率、Gemini 2.5 Flashの超低価格で民主化が加速
マルチモーダルの進化: テキスト・画像・音声・動画の同時処理が当たり前に
🌟 6月の特筆すべきアップデート
Claude 4の「延長思考モード」: 数時間にわたる持続的タスク実行が可能
Grok 3の「Big Brain モード」: 追加計算リソースを割り当てて複雑な問題解決を実現
o4-miniの画像推論: 初めて画像を「思考ループ」に組み込んだ推論モデル
Gemini 2.5のWebDev Arena制覇: ELO 1415でコーディングリーダーボードを席巻
DeepSeek R1-0528: ハルシネーション45-50%削減と機能呼び出し対応
⚠️ 選択時の注意点
ベンチマーク論争の激化: Grok 3のAIME結果について、consensus@64スコアの省略をめぐりOpenAIとxAI間で論争が発生
コンテキスト制限の重要性: Claude 4は200Kに対し、Gemini 2.5 Proは1M-2Mと大きな差
「思考」機能のコスト: 推論トークンも課金対象となるため、実際のコストは表示価格の数倍になることも
モデルの特化傾向: 汎用性よりも特定分野での突出した性能を重視する傾向
更新頻度の加速: 月単位でモデルが更新されるため、最新情報の確認が必須
📚 参考資料・出典情報
本記事は以下の信頼できる情報源を基に作成されています:
- Artificial Analysis(https://artificialanalysis.ai/)- AIモデルの独立評価分析
- Anthropic公式発表 – Claude 4シリーズのベンチマーク結果
- OpenAI公式データ – o3とo4-miniの性能評価
- Google DeepMind – Gemini 2.5シリーズの技術仕様
- DeepSeek AI – R1-0528の改良点と性能向上
- 学術論文 – arXiv.orgに掲載された最新ベンチマーク研究
- 独立評価機関 – Epoch AI、LMArena、WebDev Arena等のリーダーボード
データの信頼性について:
本記事で使用されているベンチマークスコアは、2025年6月25日時点での最新情報に基づいています。
AI業界は週単位で進化しているため、最新の情報については各公式サイトをご確認ください。
TL;DR: Claude 4がコーディング分野を制覇、Grok 3とo4-miniが数学で新記録、コスパならGemini 2.5 Flash一択。
推論機能が標準装備となり、ベンチマーク論争も激化する中、用途に応じた選択がより重要になりました。
コメント