日本時間2025年11月20日、Googleは最新の画像生成・編集モデル「Nano Banana Pro(Gemini 3 Pro Image)」を発表しました。

Gemini 3 Proのリーズニング能力をベースに、忠実度、高度なテキストレンダリング、そしてプロンプトへの深い理解力を実現しています。

本記事では、Nano Banana Proのモデル性能、API情報、そしてAI Studioで実際に4つのカテゴリーのタスクを試した検証結果をまとめます。

要点:

  • Nano Banana Pro(Gemini 3 Pro Image)発表
    スタジオ品質の画像生成を実現するハイエンドモデル。テキスト描画、物理演算制御、事実に基づく生成能力が大幅に向上。

  • 高度なクリエイティブ制御と編集機能
    最大14枚の画像入力による構成制御、キャラクターの一貫性維持、照明やカメラアングルの事後編集が可能に。

  • 透明性の確保とエコシステム展開
    電子透かし「SynthID」とC2PAメタデータを標準搭載。Geminiアプリ、Vertex AI、Google Adsなどで順次利用開始。

Nano Banana Proの概要

Gemini 3 Proベースの画像生成モデル

Nano Banana Proは、既存のNano Banana(Gemini 2.5 Flash Image)の上位モデルとして位置づけられます。

Gemini 3 Proを基盤とし、以下の点で進化しました。

  • 高忠実度と制御: 照明、被写界深度、カメラアングルなどの物理的なパラメータを精密に反映。さらに9:16の縦長ポスターから21:9のシネマティックなワイドショットまで、多様なアスペクト比を自在に制御可能。

  • テキストレンダリング: 画像内の文字を正確に綴り、ロゴや看板、製品パッケージの文字情報を自然に統合。

  • 事実に基づく生成: Google検索と連携(Grounding)し、正確なインフォグラフィックや図解を生成可能。

安全性とSynthID

生成された画像には、不可視のデジタル透かし「SynthID」が埋め込まれます。

Geminiアプリには検証機能が追加され、画像をアップロードして「これはAIで作られましたか?」と尋ねることで、その起源を確認できます。また、C2PA規格のメタデータも付与され、透明性が担保されます。


提供形態とAPI情報

利用可能なプラットフォーム

  • Gemini App:

  • Google AI Studio / Vertex AI: 開発者向けにAPIを提供開始

  • Google Ads / Workspace: 広告クリエイティブやスライド作成での利用に対応


API価格とベンチマーク

Nano Banana Proは、高品質・高コストのモデルとして提供されます。

  • 入力価格:

    • テキスト:$2.00 / 100万トークン

    • 画像:$0.0011 / 画像1枚(約560トークン)

  • 出力価格:

    • テキスト/Thinking:$12.00 / 100万トークン

    • 画像(1K/2K):$0.134 / 枚

    • 画像(4K):$0.24 / 枚

なお、無料枠(Free Tier)は提供されておらず、有料プラン(Paid Tier)でのみ利用可能です。


【検証】4つのカテゴリを試してみた

Nano Banana Proのクリエイティブ能力を測るため、テキスト描写、情報視覚化、ローカライズを含む4つのカテゴリで検証を行いました。


1. 人物写真の高度な編集と合成

人物の写真をベースに、構図の変更、衣装の変更、テキスト合成、環境光の変更という4パターンの編集を試しました。

プロンプト例:

①着ている白いポロシャツを、近未来的なデザインのシルバーのジャケットに着せ替えて、SF映画の主人公のようなサイバーな服装にして。

②時間帯を深夜に変更し、背景のビルの窓や街灯に明かりを灯して、全体的にネオンが輝くシネマティックでドラマチックな雰囲気に変えて。

③背景にある赤いテント(オーニング)の部分に、『ChatGPT Lab』という白いロゴ文字を、布のシワに合わせて自然に合成して。

④カメラが人物の背後に回り込み、白いポロシャツと緑のリュックを背負って交差点に立っている後ろ姿を、同じ街並みを背景にして撮影して。

オリジナル画像:

実行結果:

正直なところ、どれがオリジナルか判別できないほどの精度で編集されています。

じっくり細部を見ても編集箇所が分からず、「人物などの残すべき箇所」を完璧に維持しながら、指定した要素だけが自然に書き換わっています。

これまでの画像生成AIでは、編集時に表情が微妙に変わってしまうことが課題でした。
しかしNano Banana Proでは、実際の人物画像でも顔のアイデンティティをほぼ完璧に保持できていそうです。


2. 漫画風の説明画像生成

プロンプト:

分子の仕組みを四コマ漫画で説明して欲しい!

実行結果:

最初はテキストで検索を行ってしまいましたが、追加で「生成お願い」と伝えると、意図通りに画像を生成してくれました。

注目したいのが日本語テキストレンダリングの精度です。
吹き出し内の文字がほぼ完璧に描画されており、構図も破綻していません。

さらに、「水(H2O)」の分子構造といった科学的な内容についても、ハルシネーションを起こさずに正しい図解を生成しています。
正確性が求められる教育コンテンツなどでも、十分に実用できるレベルだと感じました。

プロンプト(概念図):

この論文を、教授がホワイトボードに書いた図のようなイメージに変換してください。日本語で図解、矢印、ボックス、そして核心部分を視覚的に説明するキャプションを使ってください。色も利用してください。
==(ニュートン『プリンキピア』の序盤テキスト)==

実行結果(概念図):

こちらも驚きの結果が得られました。
論文の内容を理解し、それを「教授が書くホワイトボードの板書」というスタイルで完璧にビジュアライズしてくれました。日本語の書き文字も自然で、概念の説明資料としてそのまま使えそうなクオリティです。


3. 多言語ローカライズと翻訳

プロンプト:

この漫画を日本語に翻訳して画像化して下さい

添付画像:

画像参考

実行結果:

英語の漫画を日本語に翻訳するタスクです。

単に文字を置き換えるだけでなく、元の画像の画質よりも高解像度化までされています。

一部のディテールに多少の粗は見られますが、ワンショットでここまで自然に吹き出しの中身を翻訳し、違和感なく再構成するタスクは確実に前モデルでは難しかったです。


4. キャラクターとスタイルの一貫性

自前で生成した5体のオリジナルモンスター画像を添付し、様々なシチュエーションで遊ばせてみました:

実行結果:

雷門に遊びに来た5体のモンスターが、実際の観光スポットに立って記念写真を撮っているシーンを生成してください。(中略)キャラクターは現地に溶け込む形で立ち、照明や影もその場の光環境に合わせる。

映画館の中で映画を見ている5体のモンスターの様子を描写してください。(中略)それぞれのモンスターが反応の違う表情(驚いている、ワクワクしている、笑っているなど)をしていてもOK。

添付した5体のモンスターキャラクターが、白背景のスタジオで横一列に並んで立っているシーンを生成してください。全員フルボディで、正面を向いている。同じカメラ位置・同じ構図・同じ照明条件で撮影したような統一感を重視。

雲のモンスターは浮遊し、水のモンスターは地面から湧き出るなど、それぞれのキャラクターの特性を理解して描き分けられています。

単に「画像を貼り付けた」のではなく、その場の環境光や状況に合わせて「再生成」されている点が素晴らしいポイントです。

そもそもの画像生成クオリティ自体が非常に高く、キャラクターデザインの崩れも最小限に抑えられています。


まとめ

Nano Banana Proを実際に検証して特に印象的だったのは、「日本語レンダリングの精度」と「細部の正確性」です。

これまでの画像生成AIでは難しかった漫画の吹き出し翻訳や、科学的な概念図の作成が、複雑なプロンプトエンジニアリングなしのポン出しで高品質に実現できます。
教育資料の作成やアプリ開発など、具体的なユースケースへの応用もスムーズに行えるため、検証段階から高い実用性を感じられました。

また、GoogleがSynthID(電子透かし)を標準搭載し、透明性を確保している点も重要です。
生成能力の向上に伴い、コンテンツの出自を証明する技術は今後ますます必須となっていくでしょう。

Nano Banana Proは、単なる高画質化にとどまらず、「画像生成」を運任せの試行錯誤から、意図通りに制御可能なタスクへと進化させたモデルと言えます。

参考リンク