2025年7月18日、OpenAIはChatGPTの新機能「ChatGPT agent」を発表しました。一言でいうと、昨年発表された「Operator」と情報を分析・要約する「deep research」という2つの既存機能を統合したもので、ユーザーの指示に基づき、AIが自ら仮想コンピュータを操作してタスクを実行してくれます。

本記事では、「ChatGPT agent」の機能、使い方、性能、デモ動画から分かる活用事例をまとめます。

※2025年7月21日追記:実際にAgentを試用し、3つのタスクの検証結果を追記しました。

要点

  • 自律型AIエージェント: ChatGPTが仮想PCを使い、Web操作、分析、資料作成などを実行。

  • ツール連携: ブラウザ、コード実行、スプレッドシートなどを状況に応じて自動で利用。

  • ユーザー主導の制御: 重要な操作はユーザーの許可を要求。いつでも介入・中断が可能。

  • 高い性能: スプレッドシート操作やWebナビゲーションのベンチマークで既存モデルを上回る結果を記録。

  • 提供対象: Pro, Plus, Teamユーザー向けに本日より順次ロールアウト。

ChatGPT agentとは?

ChatGPT agentは、ユーザーが自然言語で指示を与えるだけで、AIが自律的に思考し、タスク完了までの一連の行動を実行する機能です。

「競合他社の最新動向を調査し、比較資料を作成してください」といった指示から、AIが具体的なステップを計画し、情報収集、分析、成果物の生成までを一貫して実行できるようになります。

技術的には、各タスクがクラウド上の独立した仮想環境で実行される仕組みです。そのため、先日話題になった「Gemini CLI」や「Claude Code」のように、ユーザーのPC内にあるローカルファイルに直接アクセスすることはできません。

内部のモデルはChatGPTで使えるようなモデルではなく、専用にテキストブラウザ、GUIブラウザ、ターミナルといった多様なツールを、タスクに応じて適切に使い分けるよう強化学習(Reinforcement Learning)によって訓練されているようです。

提供状況

本機能は、ChatGPT Pro, Plus, Teamの各プランのユーザーに順次提供されます。特別な設定などは不要で、ChatGPTのツール選択メニューから「agent mode」を有効にすることで利用を開始できます。

利用には以下のクエリ数制限が設けられています。

  • Proユーザー: 400クエリ/月

  • Plus, Teamユーザー: 40クエリ/月

EnterpriseおよびEducationプランのユーザーには、数週間以内に提供が開始される予定です。

性能:主要ベンチマークでの結果

ChatGPT agentの能力を示す複数の主要なベンチマークがすでに公開されているので、主要なものを以下にまとめます。

専門知識と数学的推論

  • Humanity's Last Exam (HLE): 専門家レベルの幅広い知識を問うテストで、スコア41.6%を達成(Grok 4は38.6%)。

  • FrontierMath: 高難度の数学問題において、スコア27.4%を記録し、o3, o4-mini(19.3%)などを上回りました。

Web操作と情報探索

  • BrowseComp: Web上の情報探索能力を測るテストで、スコア68.9%を記録。

  • WebArena: 実世界のWebサイト上でタスクを完了する能力を評価するテストでは、スコア65.4%を達成し、既存のエージェントを上回る結果を示しました。

実世界でのタスク実行能力

  • DSBench (データサイエンス): データ分析とモデリングの両タスクにおいて、人間のパフォーマンスを大幅に上回る結果が報告されています。

  • SpreadsheetBench (表計算): スプレッドシートの編集能力を測るテストで、45.5%のスコアを記録し、Copilot in Excel(20.0%)の2倍以上となりました。

  • 経済的に価値あるタスク: 人間が10時間以上を要するような複雑なタスクにおいて、専門家による評価の結果、約半数のケースで人間と同等以上のパフォーマンスを示しました。


基本的な使い方

ChatGPT agentの使い方は直感的です。

① Agent modeを有効にする

ChatGPTの入力欄の横にある「Tools」アイコンをクリックし、表示されるメニューから「Agent mode」を選択します。

② 目標をプロンプトで指示する

有効になったら、処理したいタスクを具体的に入力します。エージェントは指示を解釈し、自律的にタスクの計画と実行を開始します。

③ 進捗を監視し、適宜介入する

AIは完全に自律して動作するわけではなく、ユーザーはプロセスに関与し続けます。

  • 進捗の監視: エージェントの作業状況はリアルタイムで確認できます。

  • 重要な操作の承認: ファイルのダウンロードや編集といった重要な操作の前には、ユーザーに許可を求めます。

  • 介入と修正: ユーザーはいつでもタスクを一時停止させ、指示の追加や修正が可能です。

公式デモで紹介されたユースケース例

OpenAIが公開したデモでは、以下のような活用例が紹介されています。

  • 市場調査とプレゼンテーション作成

「シンガポールでのオフィス開設」に関するリサーチを指示。エージェントは関連情報をWebで収集し、候補となるエリアの画像や賃料、政府の補助金といった情報をまとめ、最終的にプレゼンテーション資料(.pptx)が生成されています。

シンガポールでテック企業向けのオフィス開設の選択肢について調査してもらえますか?さらに、利用可能なビジネス・政府助成金やパートナーシップについても詳しく知りたいです。これらをまとめて、包括的で見栄えの良いプレゼンテーション資料を作成してください。

出力:


  • 複数年にわたるデータ収集と集計

「サンフランシスコ市の過去5年間の予算データを集計する」というタスクでは、市の公式サイトから複数のPDFを読み解き、歳入と歳出のデータを抽出。それらを一つのExcelファイルに整理して出力する様子が示されました。

イベント参加を含む旅行計画

「テニストーナメントへの旅行計画」や「レストランの予約」といったタスクでは、カレンダーツールと連携し、開催期間や交通状況を考慮しながら、具体的な旅程や予約可能な選択肢を提示してもらうといった使い方が紹介されています。



安全性とリスク管理

ChatGPT agentはWebサイトの閲覧やデータ連携など、直接的なアクションを実行できるため、利便性が高い一方で新たなセキュリティリスクも伴います。OpenAIはこれらのリスクに対し、以下のような多層的な安全対策を講じていると説明しています。

  • プロンプトインジェクションへの対策
    Webページに埋め込まれた悪意のある指示によって、エージェントが意図しない操作(例:機密情報の漏洩)を実行してしまうリスクです。OpenAIはモデルの訓練や監視体制の強化に加え、後述するユーザー確認のステップを設けることで、このリスクを低減しています。

  • 重要な操作の前のユーザー確認
    エージェントが重要なアクションを実行する前には、必ずユーザーに許可を求めます。ユーザーはいつでもタスクに介入したり、一時停止したりすることができ、最終的なコントロール権を持ちます。

  • 高リスクなタスクの自発的な拒否
    銀行振込や送金といった、本質的にリスクが高い金融関連のタスクは実行しないように設計されています。

  • ユーザー側でできる対策
    不要なコネクタは無効にする、共有する情報を吟味するなど、ユーザー側でもリスクを最小限に抑えるための対策が推奨されます。


実践検証:3つのタスクで実力を試す

実際にChatGPT agentを使い、いくつかの代表的なタスクを試してみました。

1. プレゼンテーション資料の作成

タスク:
「古代の落書きから現代SNSまで、人類のコミュニケーション手段がどう変わってきたのか、生成AIの誕生まで含めてこれまでの歴史をスライドでまとめて教えてください」というプロンプトを使い、競合エージェント「Manus」と出力品質を比較しました。

結果:
結論として、スライド作成能力においては、Manusの方が明らかに優れていました。

ChatGPT Agentは内部でPythonを実行しpptxファイルを生成するようですが、出来上がったスライドは情報量が少なく、デザインも非常に簡素なものでした。後からHTML形式での出力を指示しても、品質の大きな向上は見られませんでした。

一方でManusは、デザイン性の高いHTMLスライドを生成しました。両者の出力は、後ほど掲載する比較画像で一目瞭然です。

現状、特にデザイン性が求められるプレゼンテーション作成タスクにおいては、専用ツールに最適化されたエージェントに分があるようです。

Manusの出力:

https://manus.im/share/file/280e3220-3b54-4430-a920-965dbbccac9a


ChatGPT Agentの出力:

会話履歴:https://chatgpt.com/share/687e38ee-6dcc-8000-917c-9142c4531d1e


2. Webページの評価とフィードバック

タスク:
「ChatGPT研究所のサイトの記事コンテンツを全部ざっとチェックして、気づいたことを詳しくレポートにしてください」という指示で、Webサイトの分析能力を検証しました。

結果と所感:
仮想ブラウザがJavaScriptの処理などに苦戦し、うまくコンテンツを読み込めないことが多々ありました。最終的にエージェントはGUI操作でスクリーンショットを撮るなどして自力で解決したものの、動作は非常にもっさりとした印象です。

一方で、最終的なレポートは、単なる記事の要約だけでなく、料金体系まで自ら調査・分析してくれています。

Webリサーチの網羅性や速度では既存の「Deep Research」機能に分があるかもしれませんが、GUIを操作してスクリーンショットを撮りながらUIを評価するといったタスクは、ChatGPT agentならではの強みと言えそうです。

会話履歴:https://chatgpt.com/share/687e38c8-eb60-8000-88cb-7b40699785ee


3. Y Combinator採択企業のリストアップとExcel化

タスク:
「2024-2025年にYコンビネーターに採択されたスタートアップ企業を全てスプレッドシートにまとめてください。リンクを貼ってすぐに企業に関する情報にアクセスできるようにお願いします」という指示で、Webからのデータ収集と整形能力を検証しました。

結果と所感:
約28分という長時間を要したものの、最終的には967社分のデータがまとめられたExcelファイルが正確に生成されました。このタスクから、agentの顕著な長所と短所が見えてきました。

長所:

  • APIアクセスがブロックされてもブラウザ操作へ切り替えるなど、自律的に代替案を試行し、最終的にタスクを完遂させる粘り強さが見られました。

  • 時間はかかりますが、一度指示すれば最後までやり遂げてくれる安定性は、複雑なデータ収集において大きな強みと言えるでしょう。データが揃った後の分析・加工が高速な点も魅力です。

短所:

  • 先ほどの処理時間の大半は、Webからのデータ収集に費やされました。APIが弾かれたり、仮想ブラウザの動作がもっさりしていたりと、外部環境との連携が大きなボトルネックとなっています。

現状、Webからのデータ収集をゼロから任せるのは時間がかかりすぎて非実用的かもしれません。しかし、あらかじめデータセットを用意し、その分析や加工を任せるといった使い方であれば、その安定したコード実行能力を活かせそうです。

会話履歴:https://chatgpt.com/share/687e3d77-fdbc-8000-a202-80e6d4114455


所感と現時点での評価

複数の実用タスクを検証した結果、ChatGPT agentはまだ発展途上であり、多くの専門タスクにおいて既存の特化型ツールに及ばないのが現状です。

特に、スライド作成のようなデザイン性が求められるタスクは不得手とします。また、Webからのデータ収集は時間がかかる点が大きな課題です。

そのため、速度が求められる単純なWebリサーチであれば「Deep Research」や「Manus」に分があります。しかし、多少時間がかかっても、複雑な手順を乗り越えて網羅的なデータを最後まで収集しきる、といったタスクにおいては、agentの粘り強さが独自の強みとなります。

まとめ

AIが自律的にタスクを実行するというコンセプト自体は目新しいものではありませんが、OpenAIが「ChatGPT agent」として製品化したことの意義は大きいでしょう。

公式ベンチマークでは高い性能が示されているものの、実践ではまだ課題も多く、特にクリエイティブなタスクは不得手なようです。

一方で、Webからのデータ収集は、時間がかかるという弱点と表裏一体で、一度指示すればエラーを乗り越えて最後までやり遂げる「粘り強さ」という独自の強みも見られました。

現時点では、専門的なタスクは既存の特化型ツールと使い分けるのが現実的です。「万能アシスタント」と呼ぶにはまだ早いですが、その片鱗は確かに感じさせる、今後の進化から目が離せない機能と言えるでしょう。

公式情報

OpenAI公式ブログ: Introducing ChatGPT agent: bridging research and action