はじめに

Googleは先日、Google I/Oと呼ばれる開発者向けイベントを開催し、様々な機能の紹介を行いました。

https://agi-labo.com/articles/n62fd4c630dad

そんな中、今回紹介するのは、無料でGoogleの各種AI機能を無料で使用することができるGoogle AI Studioです。

2024年に公開した「Google AI Studio徹底解説」の記事から半年が経ち、その機能は驚くべき進化を遂げています。そこで本記事では、数ある新機能の中でも特に注目すべきポイントを凝縮し、最初に「何ができるようになったのか」の全体像を掴んでから、各機能の詳細に潜っていく構成でお届けします。

https://agi-labo.com/articles/n645443eabe40

AI Studioの進化が一目でわかる!3つの注目機能

本編に入る前に、現在のGoogle AI Studioで特に注目すべき3つの機能をダイジェストでご紹介します。

① 音声と映像でAIとリアルタイム対話!

マイクを使った音声対話やカメラ映像の共有など、リアルタイムかつマルチモーダルなコミュニケーションが可能になりました。まるで人間と話しているかのような自然な会話を体験できます。
(▼詳細は本編「Streamタブ – 音声によるリアルタイム対話」で)

② テキストから画像・動画・音楽を即生成!

テキストで指示するだけで、高品質な画像(Imagen 3)・動画(Veo 2)・音楽(Lyria)」などを手軽に生成できます。アイデアを即座に形にする、クリエイティブな作業がこれまで以上に簡単になりました。
(▼詳細は本編「Generate Mediaタブ – 各種メディアの生成」で)

③ URLやファイルを読み込ませて分析!

https://drive.google.com/file/d/1ICqKrxVZdbwkdSMYYIS5qRedbswL3Jjm/view?usp=sharing

従来のチャット機能も大幅に進化。WebサイトのURLを貼り付けて内容を要約させたり、PDFや動画ファイルをアップロードして分析させることが可能に。面倒な情報収集や資料の読み込み作業をAIに任せることができます。
(▼詳細は本編「Chatタブ – 会話によるAI対話」で)

Google AI Studioとは

Google AI Studioは、Googleが提供する最新のAIモデル(「Gemini 2.5 Pro」や画像生成モデル「Imagen」など)を無料で試せるプラットフォームです。

https://aistudio.google.com/prompts/new_chat

2025/6/5の深夜に発表された「Gemini 2.5 Pro Preview」も即日使用できるようになっています。

https://twitter.com/ctgptlb/status/1930666240064016401

ブラウザ上で利用でき、プログラミング知識がなくてもチャット形式でAIを操作したり、画像や音声の生成、簡単なAIアプリ開発まで行えます。

2025年5月のGoogle I/Oで発表された最新アップデートにも対応しており、マルチモーダル(テキスト・画像・音声・音楽など)生成など多彩な機能が統合されています。

https://agi-labo.com/articles/n62fd4c630dad

Google AI Studioで使える機能として、主に下記のようなタブメニューが並んでいます。

  • Chat(チャット対話)

  • Stream(ストリーミング入力によるマルチモーダル対話)

  • Generate Media(画像・音声・動画の生成)

  • Build(アプリ開発)

  • History(履歴)

この記事では上記の5つの機能を詳細に解説します。

Chatタブ – 会話によるAI対話

まずは、基本画面である、Chat機能について紹介します。

Chatタブでは、テキストによる対話型AIチャットが利用できます。

新しいチャットセッションを開始するには左メニューで「Chat」を選ぶだけでOKです(クリックすると会話履歴がリセットされ、新しいチャットが始まります)。

画面左に各種タブが並び、中央はチャットや生成の内容を表示・入力するエリア、チャット生成画面の上部には各種チャットに関する機能、右側にモデル設定パネルが表示されます。

各種チャットに関する機能

一番左のボタンは、「System instruction」です。これは、チャット内でAIに常に守ってほしい指示(システムプロンプト)をあらかじめ入力しておく機能です。

ChatGPTのカスタムインストラクションと同様に、特定の役割(例:「あなたはプロの編集者です」)を設定したり、回答のトーンを指示したりすることで、毎回同じ指示を繰り返す手間を省けます。

クリックすると入力画面が開かれるので、そこから入力することが可能です。

一つ隣のボタンは、GeminiのSDKコードを取得できます。

Geminiを自分のアプリケーションやスクリプトから呼び出して会話したい場合、どのように SDK をインストールして初期化すればよいか、どのメソッドを使ってメッセージを送信すればよいかといった「雛形コード」をワンクリックで手に入れられるようにしています。

写真の二つはプロンプト共有ボタン(左)と保存ボタン(右)です。

チャットで何かしらのやり取りを行った後、保存ボタンをクリックします。

保存すると、シェアボタンが表示されるのでクリックします。

共有権限等の設定を行い、リンクをコピーすると、そのリンクを受け取った人は同様のチャット画面を表示することができます。

シェアボタンの隣のボタンは「Compare mode」ボタンで、モデルごとの出力の比較が可能です。

プロンプトを同時送付して、回答出力の速さや、回答結果を比較することが可能です。

「Compare mode」ボタンの隣のボタンは、チャット内容をクリアすることができます。

3点ボタンをクリックすると、チャット内容を「コピー」または、チャット内容を削除することが可能です。

モデル設定パネル(右側)

前回の情報から違う点としては、ToolsのURL contextという機能が追加されています。

https://agi-labo.com/articles/n645443eabe40

URL contextをONにすると、GeminiがURLを開いてbrowserツールを使用して直接URLのページ内容を取得することが可能になります。

下記のように指示すると、URLの内容を読み込んで、回答を作成してくれました。

https://chatgpt-lab.com/
上記のURLにアクセスして最新の記事を3つ取得してください。

実際の結果

URLを直接見に行っているので、最新の情報がしっかりと反映されていることがわかります。

一方、URL contextをONにしないと、チャット右下に注告が現れます。

結果を確認すると、一見ページを見てくれたように感じますが、内容を確認すると、直近の記事は取得できておらず、直接URLを開いているのではなく、LLMの学習内容をもとに回答を生成していることが分かります。

URL contextでは、URLからHTMLを直接解析しているようなので、URLを指定して、スクレイピングを行ってもらうことも可能です。

https://drive.google.com/file/d/1ICqKrxVZdbwkdSMYYIS5qRedbswL3Jjm/view?usp=sharing

※動画を見てもわかる通り、一発で成功しない場合があります。公式によると、現在は試験運用版らしく、完全ではないことにご注意ください。

Google 公式サイト

チャットエリア

テキストボックスにユーザーの指示や質問を入力し、送信ボタンを押すとAIが応答します。

右下の「+」ボタンから

  • Googleドライブ、ローカルフォルダから画像・PDF・動画・音声ファイルなどをアップロード

  • 音声入力

  • カメラ撮影

  • Youtube動画のURLをアップロード

  • サンプル素材のアップロード

が可能です。

アップした内容をAIに読み込ませて分析させることも可能です。

また、モデル設定から「GEMINI 2.0」>「Gemini 2.0 Flash Preview Image Generation」を選択すると、画像の生成もチャットで指示することができます。

チャットでの画像生成に関しては下記の記事でも解説しています。

https://agi-labo.com/articles/n6e63dda8458e


Streamタブ – 音声によるリアルタイム対話

Streamタブでは、マイクを使った音声対話やカメラ映像の共有など、リアルタイムかつマルチモーダルなコミュニケーションが可能です。

Chatタブがテキストベースのやり取りであるのに対し、Streamタブでは実際に話しかけてAIと会話できます。

画面中央部がチャット画面、画面右側が各種設定画面という配置になっています。

各種設定画面:

前回の記事から、ストリームで設定できる項目が増えたため、各種設定項目を説明します。

モデルに関しては、「Gemini 2.5 Flash Preview Native Audio Dialog」「Gemini 2.5 Flash EXP NativeA Audio Thinking Dialog」「Gemini 2.0 Flash 001」の3つを選択できます。

Output format(AIの回答形式)に関しては、基本的に「音声とテキスト」ですが、モデルで「Gemini 2.0 Flash 001」を選択した場合のみ、「音声とテキスト」か「テキストのみ」かを選択できます。

Voiceでは、デフォルトで用意されている30種類の音声から選択することが可能です。

Media resolutionでは、カメラを起動した際や画面共有した際の映像の理解度を設定できます。

66 tokens/imageよりも258tokens/imageの方がより詳細に映像を読み取ることができます。

Media resolutionの下の写真の3つの項目は、会話体験に関する設定項目です。

Turn coverage :この設定は、AIがユーザーの発話に割り込んで応答を開始するタイミングを調整します。ドラフトの説明にある通り、人間同士の会話で見られるような、相手の話の途中での相槌や応答をAIで再現するための機能です。

Affective dialog:AIがユーザーの発話に含まれる感情(喜び、怒り、悲しみ、驚きなど)を検知し、その感情を考慮に入れた上で適切な応答を生成する能力。

Proactive audio:ユーザーからの直接的な入力(発話)がなくても、AIが能動的に話しかけたり、情報を提供したりする能力。

Session Contextでは、Max context sizeとTarget context sizeを設定できます。

  • Max context size: AIが物理的に処理できる上限。これを超えると強制的に情報が切り捨てられます。

  • Target context size: AIが理想的に維持したいコンテキストの長さ。これを超える前に、より効率的なコンテキスト管理(要約や早期切り捨て)を試みたり、コストや速度を最適化したりするために使われます。

コンテキスト:一度に内部で保持・処理できるトークン数の上限

Target context sizeにおいては、コンテキスト量を増やすとAIの回答速度が落ちたりするため、回答生成スピードと内容理解のバランスを見て調節します。

基本的にはデフォルトで設定されている数値で問題ありません。


Toolsでは、「Function calling」「Automatic Function Response」「Grounding with Google Search」の設定項目があります。

Function calling:外部ツールやAPIを呼び出すための機能で、モデルは適切な関数と引数を生成。

Automatic Function Response:Function callingで生成した関数呼び出しを、SDKが自動で実行し、その結果をモデルに返す機能。

Grounding with Google Search:AIの応答に、Google検索による最新情報を反映させる機能です。これをONにすると、ドラフト内の検証にあるように「今の渋谷の天気は?」といった質問に対して、AIが自動でWeb検索を実行し、その結果を基に回答を生成します。これにより、AIの知識をリアルタイムの情報で補うことができます。

中でも、Grounding with Google SearchをONにすることで、音声からGoogle検索ができるので非常に便利です。

チャット画面:

チャット画面では、プロンプトの送付と、会話形式について選択できます。

会話形式としては、音声のみの「Talk」、音声とカメラを通して会話できる「Webcam」、スクリーンをシェアしながら会話できる「Share Screen」の3種類があります。

①Talk

Talkでは、音声会話が可能です。

Grounding with Google SearchをONにして、今の渋谷の天気を聞いてみると、Googleで「渋谷 天気」と検索した上で回答を生成してくれていることが分かります。

実際、タイムラグもほとんどなく、Google検索していても会話のラグやストレスもありません。

また、生成された音声は、3点ボタンからダウンロードすることも可能です。

②Webcam

Webcamでは、Geminiが音声とカメラ情報を認識して会話をすることが可能です。

例えば、下記のようにビデオに写っている情報に関して質問すると、的確にビデオの情報を認識して回答してくれていることが分かります。

私が着ているTシャツの色は何色ですか?

正確にTシャツの色を黒と回答してくれています。

③Share Screen

シェアスクリーンでは、Chromeタブ、ウィンドウ、画面全体をGeminiと共有しながら、オンタイムで質問したり、会話することが可能です。

実際に、ChatGPT研究所のサイトを開き、そのページについて質問してみると、しっかりとWebページの情報を参照して、ChatGPT研究所というメディアだと回答してくれました。



ここまでで、Google AI Studioの主要な機能である「Chat」と「Stream」について解説しました。テキストでの対話や、音声・映像を組み合わせたリアルタイムでのやり取りは、これだけでも非常に強力です。

この先では、AI Studioが持つさらに応用的な機能、特に各種メディアの生成AIアプリケーションの開発に焦点を当てて、より詳細な手順と活用法を解説していきます。

この先で解説する応用機能:

  • Generate Mediaタブの詳細な使い方

    • 高品質な画像生成モデル「Imagen 3」

    • テキストから動画を生み出す「Veo 2」

    • AIに音楽を作曲させる「Lyria RealTime」の操作ガイド

    • 高品質なナレーションを作成する「Gemini speech generation」のステップ

  • BuildタブによるAIアプリ開発の全手順

    • 日本語の指示でアプリを開発し、Webに公開するまでの具体的な流れ

    • 本記事で作成した「テトリスAIチャットボット」の全コードと、その解説

これらの応用的な内容は、AI Studioをさらに深く使いこなすための、具体的なヒントとなるはずです。