2025年6月最新版｜AIモデル性能比較ランキング【Claude 4・OpenAI o3・Grok 3完全解説】

2025年最新版：AIモデル性能比較の決定版を作ってみました
主要ベンチマーク別性能スコア比較表
各ベンチマークの詳細解説
💰 コストパフォーマンス分析
🎯 用途別推奨モデル
📈 2025年6月のAI業界トレンド
1. 🔥 主要な変化
2. 🌟 6月の特筆すべきアップデート
⚠️ 選択時の注意点
📚 参考資料・出典情報
1. データの信頼性について：

2025年最新版：AIモデル性能比較の決定版を作ってみました

2025.06.25

AI業界の進化は加速する一方です。

5月版の記事から1ヶ月が経過し、この短期間で業界に革命的な変化が起きました。

Claude 4ファミリーの正式リリース、OpenAI o3とo4-miniの一般公開、そしてGemini 2.5シリーズの安定版提供開始など、まさに群雄割拠の様相を呈しています。

そこで今回、2025年6月25日時点での最新情報を徹底的に調査し、主要AIモデルの性能を5つの重要ベンチマークで比較した最新版の表を作成しました。

特に注目すべきは、Anthropic Claude 4シリーズが72.5%という驚異的なSWE-Benchスコアでコーディング分野のトップに躍り出たこと、そしてコスト効率においてもGemini 2.5 Flashが圧倒的な優位性を示していることです。

主要ベンチマーク別性能スコア比較表

国・地域	モデル名	MMLU （言語理解）	SWE-Bench （コーディング）	GPQA （科学推論）	AIME （数学）	HumanEval （コーディング）	総合評価
🇺🇸 アメリカ	Claude Opus 4	88.5%	72.5%	83.5%	78.2%	89.1%	⭐⭐⭐⭐⭐
🇺🇸 アメリカ	Claude Sonnet 4	83.7%	72.7%	79.8%	72.5%	85.3%	⭐⭐⭐⭐⭐
🇺🇸 アメリカ	Grok 3	79.9%	推定65%	84.6%	93.3%	推定82%	⭐⭐⭐⭐⭐
🇺🇸 アメリカ	OpenAI o3	87.9%	69.1%	87.7%	91.6%	88.5%	⭐⭐⭐⭐⭐
🇺🇸 アメリカ	OpenAI o4-mini	85.2%	68.1%	81.4%	93.4%	83.2%	⭐⭐⭐⭐⭐
🇺🇸 アメリカ	Gemini 2.5 Pro	86.2%	63.8%	84.0%	92.0%	75.4%	⭐⭐⭐⭐⭐
🇺🇸 アメリカ	Gemini 2.5 Flash	80.9%	58.2%	76.3%	83.5%	72.1%	⭐⭐⭐⭐
🇨🇳 中国	DeepSeek R1-0528	84.9%	55.7%	78.5%	87.5%	79.3%	⭐⭐⭐⭐
🇺🇸 アメリカ	Claude 3.7 Sonnet	86.0%	62.3%	78.2%	61.3%	82.0%	⭐⭐⭐
🇺🇸 アメリカ	GPT-4.1	90.2%	55.0%	66.3%	48.1%	85.0%	⭐⭐⭐
🇫🇷 フランス	Gemini 2.5 Flash-Lite	78.5%	52.1%	71.2%	79.8%	68.9%	⭐⭐⭐

各ベンチマークの詳細解説

📊 MMLU（Massive Multitask Language Understanding）

評価内容： 57分野にわたる総合的な知識理解力を測定

問題例： 数学、歴史、コンピュータサイエンス、法律、医学など幅広い分野の多肢選択問題

人間専門家レベル： 約89.8%

注目ポイント： GPT-4.1が90.2%で最高スコアを維持していますが、Claude Opus 4とOpenAI o3も88%台後半の高いスコアを記録し、人間専門家レベルに迫っています。

💻 SWE-Bench（Software Engineering Benchmark）

評価内容： 実世界のソフトウェア開発・バグ修正能力

問題数： 2,294問（実際のGitHub Issueから作成）

特徴： DjangoやPythonライブラリの実際のバグ修正タスク

注目ポイント： Claude 4シリーズが大躍進！Sonnet 4が72.7%、Opus 4が72.5%という驚異的なスコアで業界トップに立ちました。

これは前世代の62.3%から10ポイント以上の大幅向上です。

🧪 GPQA（Graduate-level Physical and Quantitative Assessment）

評価内容： 博士号レベルの科学的推論能力（物理・化学・生物学）

問題数： 448問の高難度選択問題

人間専門家レベル： 約65-70%

特徴： Google検索でも解けない「Google-proof」な問題として設計

注目ポイント： OpenAI o3が87.7%を記録し、人間の専門家を大きく上回る一方、Gemini 2.5 Proも84.0%と優秀な成績を残しています。

🔢 AIME（American Invitational Mathematics Examination）

評価内容： 高度な数学的問題解決能力

レベル： 全米数学オリンピック予選レベル

トップ500レベル： 83%以上のスコア

注目ポイント： o4-miniとGrok 3が驚異的なスコアを記録！o4-miniが93.4%（AIME 2024）でトップ、Grok 3が93.3%（AIME 2025）で僅差の2位となり、数学分野での激戦を演出しています。

Gemini 2.5 Proも92.0%と高いスコアを維持。

🐍 HumanEval

評価内容： Pythonプログラミング能力

問題数： 164問の関数実装タスク

特徴： 実行可能なコードの生成能力を評価

注目ポイント： Claude Opus 4が89.1%で最高スコアを記録。

実践的なコーディング能力でもClaude 4の優位性が際立っています。

💰 コストパフォーマンス分析

🥇 Gemini 2.5 Flash – 圧倒的コスパ王者

価格： $0.15/$0.60（入力/出力 per 1M tokens）
特徴： 最安値でありながら80%台のMMLUスコア

🥈 DeepSeek R1-0528 – 中国発の高コスパ選択肢

価格： $0.55/$2.19（入力/出力 per 1M tokens）
特徴： オープンソースで84.9%のMMLUスコア

🥉 Gemini 2.5 Flash-Lite – 超高速・超低価格

価格： さらに低価格（具体的価格は要確認）
特徴： 高スループットタスクに最適

💸 プレミアム価格帯

Claude Opus 4： $15/$75（最高性能だが高価格）
OpenAI o3： $2/$8（6月に80%大幅値下げ実施）
Grok 3： $3/$15（1Mトークンコンテキスト付き）
OpenAI o4-mini： $1.10/$4.40（o3より10倍コスト効率）
Gemini 2.5 Pro： $1.25/$10（バランス型）

🎯 用途別推奨モデル

🔬 研究・学術用途

Grok 3 – 数学で93.3%、科学推論で84.6%の最高水準
OpenAI o3 – GPQA 87.7%で博士レベルの科学的推論
Gemini 2.5 Pro – 1Mトークンの巨大コンテキストで長文解析
Claude Opus 4 – 持続的な長時間タスクに対応

💼 ビジネス・実用用途

Claude Sonnet 4 – バランス良く無料でも利用可能
Gemini 2.5 Pro – マルチモーダル対応で実用性抜群
OpenAI o4-mini – コスト効率と性能のバランス

👨‍💻 プログラミング・開発用途

Claude Opus 4 – SWE-Benchで世界最高の72.5%
Claude Sonnet 4 – 72.7%でさらに上回る実用性
OpenAI o3 – 69.1%で複雑な推論が必要なコーディング
OpenAI o4-mini – 68.1%で高コスト効率

💡 コスト重視

Gemini 2.5 Flash – 最高コスパで無料枠も充実
OpenAI o4-mini – o3の10分の1価格で高性能
DeepSeek R1-0528 – オープンソースで自由度最大
Gemini 2.5 Flash-Lite – 超高速処理が必要な場合

📈 2025年6月のAI業界トレンド

🔥 主要な変化

Grok 3の衝撃デビュー： xAIがAIME 2025で93.3%という驚異的スコアを記録し、数学分野で新記録を樹立（ただしベンチマーク論争も発生）

o4-miniの破格コスパ： OpenAI o3の10分の1価格でありながら、数学では93.4%を記録し、実用性と経済性を両立

推論モデルの標準化： 「思考」機能が全ての主要モデルに実装され、単なる「答え」から「推論プロセス」へとシフト

コンテキスト革命： Gemini 2.5 Proの1M（2M予定）、Grok 3の1Mトークンが実用的な長文処理を可能に

価格破壊の進行： OpenAI o3が80%値下げ、o4-miniの10倍コスト効率、Gemini 2.5 Flashの超低価格で民主化が加速

マルチモーダルの進化： テキスト・画像・音声・動画の同時処理が当たり前に

🌟 6月の特筆すべきアップデート

Claude 4の「延長思考モード」： 数時間にわたる持続的タスク実行が可能

Grok 3の「Big Brain モード」： 追加計算リソースを割り当てて複雑な問題解決を実現

o4-miniの画像推論： 初めて画像を「思考ループ」に組み込んだ推論モデル

Gemini 2.5のWebDev Arena制覇： ELO 1415でコーディングリーダーボードを席巻

DeepSeek R1-0528： ハルシネーション45-50%削減と機能呼び出し対応

⚠️ 選択時の注意点

ベンチマーク論争の激化： Grok 3のAIME結果について、consensus@64スコアの省略をめぐりOpenAIとxAI間で論争が発生

コンテキスト制限の重要性： Claude 4は200Kに対し、Gemini 2.5 Proは1M-2Mと大きな差

「思考」機能のコスト： 推論トークンも課金対象となるため、実際のコストは表示価格の数倍になることも

モデルの特化傾向： 汎用性よりも特定分野での突出した性能を重視する傾向

更新頻度の加速： 月単位でモデルが更新されるため、最新情報の確認が必須

📚 参考資料・出典情報

本記事は以下の信頼できる情報源を基に作成されています：

Artificial Analysis（https://artificialanalysis.ai/）- AIモデルの独立評価分析
Anthropic公式発表 – Claude 4シリーズのベンチマーク結果
OpenAI公式データ – o3とo4-miniの性能評価
Google DeepMind – Gemini 2.5シリーズの技術仕様
DeepSeek AI – R1-0528の改良点と性能向上
学術論文 – arXiv.orgに掲載された最新ベンチマーク研究
独立評価機関 – Epoch AI、LMArena、WebDev Arena等のリーダーボード

データの信頼性について：

本記事で使用されているベンチマークスコアは、2025年6月25日時点での最新情報に基づいています。

AI業界は週単位で進化しているため、最新の情報については各公式サイトをご確認ください。

TL;DR： Claude 4がコーディング分野を制覇、Grok 3とo4-miniが数学で新記録、コスパならGemini 2.5 Flash一択。

推論機能が標準装備となり、ベンチマーク論争も激化する中、用途に応じた選択がより重要になりました。

2026年2月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28