【週刊AI】OpenAIの内部文章から「ChatGPTスーパーアシスタント」構想が明らかに | #18 2025年5月26日~6月1日

今週は、先週の「大型プロダクト発表ラッシュ」から一段落し、いかに定着・収益化・規制対応へ移行するかが前面に出た1週間だったように思います。

今週も、ChatGPT研究所が注目した、今週見逃せない主要なAIニュースとそのポイントをまとめてお届けしていきます。

今週のハイライト

今週は、大手AI企業の“ユーザー定着”と“法人拡大”に向けた動きが加速しました。MetaはAIアシスタントの月間アクティブユーザーが10億人を突破、GoogleはGmailモバイルに要約カード機能を追加し、日常利用の便利さを強化しています。

法人向けでは、マイクロソフトがBarclaysと10万ライセンスの契約を結び、AIアシスタントの企業導入が本格化。デジタルライティングツールを提供するGrammarlyも10億ドルを調達し、単なる文章校正ツールから生産性プラットフォームへの進化を目指しています。

また、PerplexityやAnthropic、Black Forest Labsなどからも新機能・新モデルが発表され、開発者向けツールも引き続き活発です。

規制や倫理面では、日本初のAI推進法が成立。米国ではディープフェイク対策法が可決され、Googleに対する独禁訴訟も進展するなど、AIを取り巻く社会的ルール作りも動き始めています。

1. 大手AI企業の製品・サービス更新

Meta AI、月間アクティブユーザー10億人突破ザッカーバーグCEO発表

Metaのマーク・ザッカーバーグCEOは、同社のAIアシスタント「Meta AI」の月間アクティブユーザー数（MAU）が10億人に達したと発表しました。今後はパーソナライゼーションや音声対話、エンターテイメント機能の強化に注力するとのことです。

主な特徴とポイント:

MAU10億人達成: MetaのAIアシスタントが、同社の各種アプリを通じて広範なユーザーベースを獲得。
パーソナライゼーション強化: 個々のユーザーに最適化された体験提供に重点。
音声対話とエンタメ機能拡充: より自然なインタラクションと楽しめるAI体験を目指す。
将来的な収益化も視野: 有料の推奨機能挿入や、より多くの計算資源を利用できるサブスクリプションサービス提供の可能性を示唆。
スタンドアロンアプリ展開: 4月にリリースされたスタンドアロンアプリも普及に貢献。

Google、医療特化AIモデル「MedGemma」を発表ヘルスケアアプリ開発を支援

Googleは、医療分野のテキストおよび画像解析に特化したオープンモデル群「MedGemma」を発表しました。これは同社のGemma 3をベースに構築されており、開発者はこれを利用してヘルスケア関連のAIアプリケーション開発を加速できます。MedGemmaには、40億パラメータのマルチモーダル版と270億パラメータのテキスト専用版の2種類があります。

https://twitter.com/GoogleDeepMind/status/1928114564098384029

主な特徴とポイント:

医療特化のオープンモデル: 医療テキストと画像の理解に優れたAIモデルを開発者向けに提供。
2つのバリエーション: マルチモーダル対応の4Bモデルと、テキスト処理に特化した27Bモデルを用意。
多様なユースケースに対応: 医療画像の分類・読影支援、医療テキストの理解、臨床推論、患者との対話支援など幅広い用途を想定。
適応・カスタマイズが可能: プロンプトエンジニアリング、ファインチューニング、他のツールとの連携（エージェント化）により、特定の用途に合わせて性能向上可能。
開発者向けリソース提供: モデルカードやファインチューニング用ノートブックなどを公開し、開発をサポート。

OpenAI、ChatGPTを「人生のあらゆる場面でのスーパーアシスタント」に進化させる構想

OpenAIの内部戦略文書によると、同社はChatGPTを単なるチャットボットから、ユーザーを深く理解し、インターネットへのインターフェースとなる「AIスーパーアシスタント」へと進化させることを目指しています。このアシスタントは、日常の簡単な質問応答から、住宅探し、休暇計画、メール送信、さらには専門的なコーディング作業まで、幅広いタスクを支援する能力を持つとされています。

OpenAIが2024年秋に策定したH1 2025向け内部文書「ChatGPT: H1 2025 Strategy」

主な特徴とポイント:

スーパーアシスタント構想: ユーザーを深く理解する直感的AIスーパーアシスタントとして、パーソナライズされた形で全プラットフォーム（chatgpt.com、アプリ、電話、メール、Siri等）での利用を目指す。
「T字型スキル」によるタスク対応: 生活全般のタスク（情報検索、予定管理、コミュニケーション等）から専門分野（初期はコーディング等）まで対応。エキスパート、チューター、コラボレーター等、多角的にユーザーを支援し、H1 2025には人間がPCで行う知的作業全般の代替を目指す。
高度な技術基盤: 高性能モデル(o2, o3等)によるエージェント機能、ツール連携(Computer Use等)によるアクション実行能力、マルチモーダル・生成UIによる最適な情報表現、ウェブ上でのアクション実行能力を技術的基盤とする。
デフォルトアシスタント化戦略: ユーザーが主要OS・プラットフォームでChatGPTをデフォルトAIアシスタントとして選択できる権利を主張。大手IT企業に対し、自社AI優先ではなく公正な選択肢の提供と、AIアシスタントによる検索インデックスへのアクセス許可を求める。

GmailモバイルアプリにGeminiによるメール要約カード機能が登場

Googleは、Gmailのモバイルアプリ（AndroidおよびiOS）に、AI「Gemini」によるメール要約カード機能を導入しました。これにより、長いメールスレッドや多数の返信があるメールの場合、内容の冒頭に自動で要約が表示され、ユーザーは迅速に要点を把握できます。

主な特徴とポイント:

自動メール要約: 長文メールや複数返信のあるスレッドの主要ポイントをGeminiが自動で要約し、メール上部に表示。
モバイルでの利便性向上: これまで手動で要約を生成する必要があったが、自動表示により手間を削減。
最新情報に追随: 新たな返信があった場合も、要約内容は更新され、常に最新の状況を反映。
英語メールから対応開始: 現時点では英語のメールでのみ利用可能。
プライバシー保護を重視: Gmailはユーザーデータの保護とプライバシーを優先する姿勢を強調。

マイクロソフト、法人向けAI「Copilot」の販売好調をアピール Barclaysとは10万ライセンス契約

マイクロソフトは社内タウンホールミーティングで、法人向けAIアシスタント「Copilot」の販売が好調であることを強調し、英国の大手銀行Barclaysと10万ライセンスの大型契約を締結したことを明らかにしました。Accentureやトヨタ、シーメンスなど、複数企業が10万ユーザー規模でCopilotを導入しているとのことです。

主な特徴とポイント:

大規模導入事例が続々: Barclaysに加え、Accenture、トヨタ、VW、シーメンスなどがCopilotを大規模導入。
Copilot利用促進に注力: マイクロソフトは顧客企業におけるCopilotの利用率向上を重視。
年間数千万ドル規模の契約: 1ユーザー月額30ドルの定価ベースでは、各大型契約は年間数千万ドル規模に。
AI収益化への期待: AI関連事業の年間収益は少なくとも130億ドルペースとの見通し。
段階的な導入が主流: 多くの企業は、全社一斉導入ではなく、試験運用や段階的な展開を選択。

Googleフォト、Pixel限定AI機能を含むエディタ刷新でAI編集を強化

Googleフォトの編集機能が大幅にアップデートされ、AIを活用した新機能が追加されました。これには、これまでPixelデバイス限定だったAIによる自動構図調整「Auto Frame」や、テキスト指示で画像を生成・編集する「Reimagine」機能が含まれ、より多くのユーザーが高度な編集を手軽に行えるようになります。

主な特徴とポイント:

AI編集機能の拡充: Pixel 9などで先行提供されていた高度なAI編集ツールをGoogleフォトに統合。
「Auto Frame」機能: AIが写真の構図を自動で提案し、トリミングや拡張を行って空白を自然に補完。
「Reimagine」機能: テキストで指示するだけで、写真に新たな要素を追加したり、雰囲気を変えたりすることが可能。
UIの刷新と「AI Enhance」: 編集メニューを簡素化し、複数のAI効果を自動で組み合わせる「AI Enhance」機能を導入。
QRコードによるアルバム共有: QRコードをスキャンするだけでアルバムを共有できる新機能も順次展開。

Anthropic、AIチャットボット「Claude」に音声対話モードを追加

AIスタートアップのAnthropicは、同社のAIチャットボット「Claude」のモバイルアプリ向けに、音声で対話できる「音声モード（ベータ版）」の提供を開始しました。これにより、ユーザーはタイピングせずにClaudeと自然な会話を行えるようになります。

https://twitter.com/AnthropicAI/status/1927463559836877214

主な特徴とポイント:

音声による自然な対話: Claudeと声で会話し、音声で応答を得られる新機能。
モバイルアプリ向けに提供開始: まずは英語で、数週間かけて順次Claudeモバイルアプリユーザーに展開。
5種類の音声オプション: ユーザーは好みの音声を選択可能。
テキストと音声のシームレスな切り替え: 会話中にテキスト入力と音声入力を自由に切り替えられる。
利用制限と有料機能: 無料ユーザーは会話回数に制限があり、Google Workspace連携などの高度な機能は有料プラン限定。

OpenAI、サードパーティアプリ向け「ChatGPTでサインイン」機能を検討中

OpenAIが、ユーザー自身のChatGPTアカウントを利用してサードパーティ製のアプリケーションにサインインできる機能の導入を検討していることが明らかになりました。同社は現在、この機能を自社アプリに統合したい開発者向けの希望調査フォームを公開しています。

開発者向けAIコーディングツール「Codex CLI」で既に類似機能のプレビューを提供済み

主な特徴とポイント:

ChatGPT認証による外部連携: ユーザーが持つChatGPTアカウントで、他のアプリやサービスにログインできる機能。
開発者向けに関心度調査: OpenAIが本機能の導入に関心を持つアプリ開発者を募集中。
大手テック企業への対抗: AppleやGoogleなどが提供するシングルサインオン機能と同様の利便性を目指す。
ChatGPTの巨大ユーザー基盤活用: 約6億人の月間アクティブユーザーを抱えるChatGPTのプラットフォーム力を拡大。

2. 開発者向けAIツール

Sakana AI、自己改良型AIエージェント「Darwin Gödel Machine (DGM)」を発表

日本のAIスタートアップSakana AIは、自身のコードを書き換えることで性能を向上させる自己改良型AIエージェント「Darwin Gödel Machine (DGM)」を発表しました。進化の概念に着想を得て、エージェントの多様な亜種を維持・探索することで、継続的な能力向上が可能です。

主な特徴とポイント:

自己コード書き換えによる進化: AIエージェントが自身のプログラムを修正し、能力を自律的に向上させる。
進化論的アプローチ: 多様なエージェントのバリアント（亜種）を維持し、広大な設計空間を探求して継続的な進化を促す。
ベンチマークで性能向上を実証: SWE-benchで20.0%から50.0%へ、Polyglotで14.2%から30.7%へと成功率が大幅に向上。
UBCとの共同研究: ブリティッシュコロンビア大学（UBC）のJeff Clune氏の研究室との共同開発。
オープンソース化: 研究成果としてコードもGitHubで公開。

Hume AI、あらゆる声と個性を再現する音声言語モデル「EVI 3」を発表

感情認識AIを手がけるHume AIは、あらゆる人間の声や個性をプロンプトから1秒未満で理解・生成できる新しい音声言語モデル「EVI 3」を発表しました。このモデルは音声対音声アーキテクチャを採用し、声のトーン、リズム、音色、話し方を深く理解し、より表現力豊かで自然な音声対話を実現します。

https://twitter.com/hume_ai/status/1928140526500409548

主な特徴とポイント:

汎用的な音声生成・理解: 特定の話し手に限定されず、多様な声質や話し方を再現・理解。
1秒未満の高速応答: 低遅延の音声対音声アーキテクチャにより、自然な会話速度を実現。
豊かな感情表現: 不安、熱狂、親密なささやきなど、状況に応じた感情豊かな話し方を生成。
プロンプトによるパーソナライズ: 「ハスキーなオーストラリアの歴史マニア」など、ユーザーが指示した通りの声と個性を生成。
他社モデルとの比較優位性: ブラインドテストにおいて、OpenAIのGPT-4oなどと比較して、共感性や表現力、応答速度などで高い評価を獲得。

Resemble AI、高性能音声合成モデル「Chatterbox」をオープンソースで公開 ElevenLabsを凌駕と主張

音声AI技術企業のResemble AIは、2年間本番環境で運用してきた最先端のテキスト読み上げ（TTS）モデル「Chatterbox」をオープンソース（MITライセンス）で公開しました。同社は、ブラインド評価でElevenLabsのモデルよりも高い評価を得たと主張しており、誰でも無料で利用可能です。

https://twitter.com/resembleai/status/1927755087620796668

主な特徴とポイント:

プロダクショングレードTTSを無償公開: 数百万リクエストを処理してきた実績ある音声合成モデルをオープンソース化。
ElevenLabs超えをアピール: リスナー評価で63.75%がChatterboxを支持したとの結果を公表。
感情表現の調整機能: 音声の表現力を調整できる「exaggeration control」機能を搭載。
Llamaバックボーン採用: 0.5B（5億）パラメータのLlamaを基盤とし、0.5M（50万）時間のクリーンデータで学習。
責任あるAIのための電子透かし: 生成音声には知覚できない電子透かし「Perth」を埋め込み、不正利用を抑止。

Google、ローカルでAIモデルを実行できるアプリ「AI Edge Gallery」を公開

Googleが、Hugging Faceなどで公開されているAIモデルをスマートフォン上でローカルに実行できる実験的なアプリ「Google AI Edge Gallery」をリリースしました。このアプリを利用すると、ユーザーは対応モデルをダウンロードし、オフライン環境で画像生成や質疑応答、コード作成などのタスクを実行できます。

主な特徴とポイント:

オフラインAI実行: インターネット接続なしで、スマホのプロセッサを利用してAIモデルを動作可能。
多様なタスクに対応: 画像生成、質疑応答、テキスト要約、コード編集など、様々なAIタスクをサポート。
オープンソースモデル活用: Hugging Faceなどで公開されている互換性のあるAIモデルをダウンロードして利用。
プロンプトラボ機能: テキストの要約や書き換えなど、単発タスクを簡単に試せる機能を提供。
開発者コミュニティへの貢献: Apache 2.0ライセンスで提供され、フィードバックを奨励。

Perplexity、新機能「Labs」を発表 AIがレポートやダッシュボード作成を支援

AI検索エンジンのPerplexityが、有料プラン「Pro」の登録者向けに新機能「Perplexity Labs」をリリースしました。この機能を使うと、AIがリサーチや分析を行い、レポート、スプレッドシート、ダッシュボード、さらには簡単なウェブアプリまで作成できます。

主な特徴とポイント:

AIによる高度な成果物作成: 単なる検索応答を超え、AIが具体的なレポートやデータ視覚化ツールを生成。
多様なファイル形式に対応: チャート、画像、CSVファイル、コードファイルなど、プロジェクトに必要な様々なアセットを作成・管理。
簡易ウェブアプリ開発: Labs内で直接、インタラクティブなダッシュボードやスライドショー、ウェブサイトを開発可能。
詳細なリサーチと分析: 10分以上の時間をかけて詳細な調査や分析を行い、質の高いアウトプットを目指す。
法人向け機能強化の一環: 企業ユーザーのニーズに応えるため、より実用的なAIツールを提供。

Black Forest Labs、画像生成・編集AI「FLUX.1 Kontext」とデモ用プレイグラウンドを発表

Black Forest Labsが、テキストと画像の両方をプロンプトとして利用できる新しい画像生成・編集AIモデル群「FLUX.1 Kontext」を発表しました。このモデルは、既存のテキストからの画像生成に加え、入力画像内の特定の要素を指示通りに編集したり、スタイルを維持したまま新しいシーンを生成したりする「インコンテクスト」な画像操作が可能です。