2025年3月25日(日本時間では3月26日深夜)、Google DeepMindは突如、Google史上最も賢いモデル「Gemini 2.5(通称:Nebula)」を発表しました。現時点、試験版として「Gemini 2.5 Pro Experimental」が利用でき、複雑な問題への対応を目指した「Thinkingモデル」として設計されています。

ユーザーがモデルの出力を比較・投票するプラットフォーム LMarena.ai を含む複数のベンチマークで最高性能を記録し、AI性能競争において再びGoogleがOpenAIなど競合からトップの座を奪い返した形です。

Geminiシリーズの特徴である強力なマルチモーダル能力も健在で、SNS上では、すでに複雑な図表から正確に日本語情報を抽出するといった活用事例も報告されています。また、ナレッジカットオフ(学習データの最終更新日時)は2025年1月と比較的新しく、これは現時点で公開されている主要モデルの中では最新です。

Google DeepMind

Gemini 2.5 Pro の特徴

ネイティブマルチモーダル性

テキストだけでなく、音声、画像、動画、さらにはコードリポジトリ全体といった多様な形式の情報を一つのモデルで処理できます。これまでのモデルと同様、リアルタイムの画像・動画ストリーミング処理に対応し、複雑な視覚情報からのデータ抽出などが可能です。

以下は非常に細かい表から正確に数値を読み取っている例です:

https://twitter.com/darkgaldragon/status/1904705783872577876

長文コンテキストウィンドウ

モデルが一度に処理・参照できる情報量を示すコンテキストウィンドウは、現時点で100万トークンの長さをサポートしています。

Google DeepMindは、このコンテキストウィンドウを近日中に200万トークンへ拡張する予定もあるとしています。

Gemini 2.5 Pro の 性能

Gemini 2.5 Pro Experimental は、特に推論とコーディング能力において、複数の主要ベンチマークで最先端の性能を示しています。

LMArena (総合評価)

人間の評価者がモデルの応答品質を比較するLMArenaにおいて、Gemini 2.5 Proは総合#1を獲得しました。スコアは1443点で、2位以下のモデルに対し+40ポイントというLMArena史上最大のスコア上昇を記録しました。

MLArena

LMArena (カテゴリー別評価)

詳細なカテゴリー別評価においても、Gemini 2.5 Proは全てのカテゴリーで#1を獲得しています。特に以下のカテゴリーでは単独での首位となりました。

  • 数学 (Math)

  • クリエイティブライティング (Creative Writing)

  • 指示追従 (Instruction Following)

  • 長文クエリ (Longer Query)

  • マルチターン (Multi-Turn)

MLArena

主要学術・コーディングベンチマーク

標準的なベンチマークテストにおいても、Gemini 2.5 Proは高いスコアを記録しています。

  • 数学 (AIME 2025): 86.7%

  • 科学 (GPQA diamond): 84.0%

  • 推論・知識 (Humanity's Last Exam, ツールなし): 18.8%

  • コード生成 (LiveCodeBench v5): 70.4%

  • エージェント的コーディング (SWE-Bench Verified, カスタムエージェント): 63.8%

  • コード編集 (Aider Polyglot, whole/diff): 74.0% / 68.6%

  • 事実性 (SimpleQA): 52.9%

  • 長文コンテキスト (MRC 128k / 1M): 91.5% / 83.1%

  • 多言語性能 (MMLU Lite): 89.8%

Google DeepMind

Vision Arena

マルチモーダル(視覚)能力を評価するVision Arenaにおいても、Gemini 2.5 Proは1位を獲得しています。

WebDev Arena

Web開発タスクに特化したWebDev Arenaでは、Gemini 2.5 Proは2位にランクインしました。これはClaude 3.7 Sonnetに次ぐ順位であり、以前のGeminiモデルと比較してWeb開発能力が大幅に向上しています。

試しに、以下の指示文でゲームを作ってもらいました:

魅力的なエンドレスランナーゲームを作ってください。
画面上にキー操作の説明が表示されるようにしてください。
p5.jsのscene(シーン)を使って構成してください。
HTMLは使わず、JavaScriptファイル内だけで完結する形にしてください。
ドット絵の恐竜や、面白い背景が好きです。

結果以下のゲームが一発で完成しました。


次に以下のような指示をしてみました:

美しいインタラクティブなp5.jsのデモを作ってください(HTMLは不要です)。人間の動きをシミュレートしてみてください。人間が何を考えているのかを表現してください。人間が特定のグループから隠れるような動きをするようにしてみてください。

使い方

Gemini 2.5 Pro Experimental は現在、以下のプラットフォームで利用可能です。


  • Geminiアプリ:Gemini Advanced ユーザーは、デスクトップおよびモバイルアプリのモデル選択ドロップダウンから選択可能です。

今後、Vertex AI でも提供が開始される予定です。
現時点では Experimental 版として無料で提供されていますが、Google DeepMindは近日中に価格設定を発表し、商用利用などスケールしたユースケースに対応するための高レート制限プランを提供する予定としています。

まとめ

今回発表された Gemini 2.5 Pro Experimental は、発表タイミングが OpenAI の別のアップデートと重なって少し影が薄くなった感はありますが、Chatbot Arena でトップを取ったことからも分かるように、その性能は最高レベルです。

特筆すべきは、応答前に内部プロセスを経る「Thinkingモデル」の採用により、従来モデルでは対応が難しかった複雑な問題への解答精度が向上している点です。これまで最強とされていた OpenAI のo1 pro modeモデル と比較しても、遜色ないレベルに達しているという印象を受けます。もちろん、これは今後のさらなる検証が必要ですが、公開されているベンチマーク結果を見る限り、Gemini 2.5 Pro が極めて強力なモデルであることは間違いありません。

画像や動画を含むマルチモーダル処理能力や、100万トークン (将来的には200万トークン) という長大なコンテキストウィンドウも健在で、研究開発からビジネス応用まで、幅広い分野での貢献が期待されます。

現在は Experimental 版ですが、今後の正式な価格設定、Vertex AI での提供開始、そして継続的なアップデートは注目に値します。AI開発競争における Google の次の一手として、今後の展開から目が離せません。