今週は、AIがより身近なツールとして進化する応用面と、基盤技術開発や大型提携といった動きの両方が見られました。

ChatGPT研究所が注目した、今週特に見逃せない主要なAIニュースとそのポイントをまとめてお届けします。それでは、早速見ていきます!

今週のハイライト

AIが私たちユーザーの情報収集や買い物をよりパーソナルに支援する、そんな動きが印象的だった1週間。特にGoogleのAIノートアプリNotebookLM日本語での音声要約機能(Audio Overviews)に対応し、国内で大きな反響を呼びました。アップロードした文書などを元にAIがPodcast風に解説してくれるこの機能は、情報活用の新たな可能性を示しています。

同ツールはモバイルアプリ(iOS/Android)のリリースも控え、利便性がさらに向上しそうです。また、ChatGPT検索ショッピング支援機能を強化し、商品探しから購入検討までをよりスムーズにするなど、AIが日常生活へ溶け込む流れが加速しています。

一方で、基盤モデル開発や戦略的提携の動きも活発でした。Microsoft Researchは140億パラメータで高い推論能力を持つオープンモデル「Phi-4-reasoning」を発表。

AnthropicはAIアシスタントClaudeの外部アプリ連携機能「Integrations」や高度な調査機能「Advanced Research」を公開し、ツールの実用性を大幅に向上させています。さらに、BloombergはAppleがAnthropicと提携し、開発ツールXcodeにClaudeを統合したAIコーディング支援ツールを開発中と報道。

中国勢では、DeepSeekが数学証明に特化したAIモデル「Prover V2」を公開。GoogleはGeminiiPhone搭載交渉が大詰めであることや、保護者管理下での13歳未満への提供開始を発表するなど、サービス展開を加速させています。

今週は、AIがより身近でパーソナルなツールとして進化する側面と、水面下で進む次世代技術開発や大型提携の両面が注目された一週間でした。

記事で紹介した注目ニュースの一部を、研究所メンバーがPodcastでも深掘りしています!
気になる方はこちらからチェックしてみてください👇

https://creators.spotify.com/pod/profile/agi-cast/episodes/AGI-Cast-13Google-NotebookLMAudio-OverviewsChatGPTClaude-e32eqqr

https://youtu.be/tfphGN5s7zo?si=LIEdHi25JlSa634M


1. 音楽生成AI「Suno」、v4.5アップデートを有料プラン向けに提供開始

音楽生成AIサービスのSunoが、最新バージョン「v4.5」を有料プラン(Pro & Premier)向けにリリースしました。このアップデートでは、対応ジャンルの拡大、ボーカル表現の向上、プロンプト理解度の強化などが図られ、よりユーザーの意図に近い楽曲生成が可能です。また、楽曲の最大長も8分に延長されました。

https://twitter.com/SunoMusic/status/1917979468699931113

主な特徴とポイント:

  • ジャンルとボーカル強化: 対応ジャンルが拡大し、ジャンルの組み合わせも向上。より豊かで感情的なボーカル表現を実現。

  • プロンプト理解度向上: プロンプトの指示(ムード、楽器、詳細なニュアンス)をより正確に反映。

  • プロンプト支援機能: 簡単な指示から詳細なスタイルプロンプトを生成する「Enhance」機能を追加。

  • カバー/ペルソナ機能強化: カバー機能でのメロディ保持力向上。新たにペルソナ機能との組み合わせが可能に。

  • 楽曲長延長: 従来の4分から最大8分までの楽曲生成に対応(Extend機能不要)。


2. Microsoft、推論能力に特化した140億パラメータのオープンモデル「Phi-4-reasoning」を発表

Microsoft Researchが、推論能力に特化した140億パラメータの新しいオープンウェイトモデル「Phi-4-reasoning」を発表しました。このモデルは、数学的ベンチマークにおいてより大きなモデルと同等以上の性能を示し、特に強化学習(RL)を加えたバージョンでは推論メカニズムが強化されています。MITライセンスで公開されており、研究や開発での利用が期待されます。

各種ベンチマークの結果 緑色がPhi-4

主な特徴とポイント:

  • 高性能な推論能力: 14Bパラメータながら、数学ベンチマーク(AIME/HMMT等)で大規模モデル(Qwen 32B, Llama3 70B等)と同等以上の性能。

  • 推論特化学習: 約140万件の高品質な推論データでSFT(教師ありファインチューニング)、一部はRL(強化学習)でさらに強化。

  • スキルの汎化・転移: 明示的に学習していない非推論タスクや特定問題(TSP、迷路解決等)でも性能向上を確認。

  • オープンアクセス: MITライセンスで公開され、SFT版とSFT+RL版のモデルウェイトがHugging Faceで利用可能 (SFT, SFT+RL)。

  • RLによる効果: 短期間のRLでも推論精度が約10%向上し、教師モデルを超える性能(better-than-teacher効果)も観測。


3. Amazon、最も高性能なAIモデル「Nova Premier」をBedrockで提供開始

Amazonは、同社のAIモデルファミリー「Nova」の中で最も高性能な「Nova Premier」を、AI開発プラットフォームAmazon Bedrock上で公開しました。

このモデルはテキスト、画像、動画を処理可能で、100万トークンという広大なコンテキストウィンドウを持ち、RAGや関数呼び出し、エージェント的なコーディングといった複雑なタスク、特にカスタムモデルを作成する際の「教師モデル」としての利用に適しています。

主な特徴とポイント:

  • Nova最高性能: Novaファミリーで最も能力が高く、複雑なタスク処理に優れる。

  • マルチモーダル(一部): テキスト、画像、動画の入力を処理(音声は非対応)。

  • 大規模コンテキスト: 100万トークンのコンテキスト長で、大量データの分析が可能。

  • 教師モデル用途: より小型・高速なカスタムモデルを蒸留(distillation)で作る際の教師役に最適。

  • Bedrockで利用可能: AWSのフルマネージド型AIサービスAmazon Bedrockを通じて提供。


4. Google NotebookLMの音声要約機能「Audio Overviews」が日本語に対応

GoogleのAIノートアプリ「NotebookLM」に搭載されている音声要約機能「Audio Overviews」が、日本語(ベータ版)を含む76の新しい言語で利用可能になりました。この機能は、ユーザーがアップロードした文書の内容をAIが分析し、Podcast風の対話形式で要約・解説するもので、好みの言語で手軽に情報をインプットできます。

https://twitter.com/ctgptlb/status/1917258648470053282

主な特徴とポイント:

  • 日本語対応: 音声要約機能が日本語(ベータ版)で利用可能に。

  • 76言語を追加: 対応言語を大幅に拡大し、多言語コンテンツの作成や学習を支援。

  • Podcast風要約: アップロードした文書(複数可)の内容を、AIホストが対話形式で音声解説。

  • 出力言語選択: 生成する音声の言語を、アカウント設定とは別に選択可能。


5. Anthropic Claude、外部アプリ連携「Integrations」と高度な調査機能「Advanced Research」を発表

Anthropicは、AIアシスタントClaudeが外部のアプリケーションやツールと直接連携できる新機能「Integrations」を発表しました。これにより、JiraやZapierなどのツールと接続し、Claudeを通じてタスク管理やデータ操作が可能になります。同時に、ウェブ検索や連携アプリ内の情報を横断的に調査する「Advanced Research」機能も強化され、最大45分かけてより詳細なレポートを作成できるようになりました。

主な特徴とポイント:

  • 外部アプリ連携 (Integrations): Jira, Zapier, Google Workspace, Confluenceなど10種のサービスと連携開始。Model Context Protocol (MCP) を活用。

  • 高度な調査 (Advanced Research): ウェブ、Google Workspace、連携アプリを横断的に調査し、最大45分かけて詳細なレポートを作成可能に。

  • 情報源の明示: 調査レポートには、情報源となった文書やデータへの直接リンク付き引用を表示。

  • 対象プラン: Max, Team, Enterpriseプランでベータ提供開始(Proプランも近日対応予定)。

  • ウェブ検索のグローバル展開: 全ての有料プランユーザー向けにウェブ検索機能を全世界で提供開始。

新機能に関してはこちらの記事で詳細に解説しています:

https://agi-labo.com/articles/n3b7a0570460d


6. Ideogram 3.0、リアリズム向上や編集機能強化のメジャーアップデートを実施。APIも提供開始

画像生成AIのIdeogramが、最新モデル「Ideogram 3.0」のメジャーアップデートを発表しました。今回の更新では、リアリズムの向上、多様なスタイルのサポート、プロンプト追従性の改善に加え、Magic FillやExtendといった編集機能が強化されました。また、開発者向けにAPIも提供開始され、外部サービスとの連携も進んでいます。

主な特徴とポイント:

  • リアリズムと多様性の向上: 画像の写実性が大幅に向上し、対応スタイルも多様化。プロンプトへの忠実度も改善。

  • 強化された編集機能: Magic Fill(部分修正)とExtend(拡張)機能が3.0モデルに対応し、Ideogram Canvas上で利用可能に。

  • API提供開始: 開発者や企業向けにAPIを提供し、PicsartやFreepikなど複数のパートナープラットフォームで利用可能。

  • スタイル参照機能: 最大3枚の参照画像をアップロードし、好みの美的感覚やスタイルを生成画像に反映。

  • 高度なテキスト生成: グラフィックデザイン用途で、複雑なレイアウトやスタイライズされたテキストを高精度に生成。


7. Midjourney、参照画像の特徴を反映させる新機能「Omni-Reference」を公開

画像生成AIサービスのMidjourneyが、参照画像内のキャラクターやオブジェクトなどを生成画像に反映させる新機能「Omni-Reference」を発表しました。この機能により、ユーザーは特定の要素を指定して画像生成をより細かく制御できるようになります。参照の影響度はパラメータで調整可能です。

主な特徴とポイント:

  • 参照機能: 画像内のキャラクター、オブジェクト、乗り物などの視覚的特徴を生成画像に取り込む機能 (--oref)。

  • 利用方法: ウェブUIではドラッグ&ドロップ、Discordでは --oref [画像URL] コマンドで利用。

  • 強度調整: --ow パラメータ(0〜1000、デフォルト100)で参照画像の影響度を細かく調整。

  • 他機能との連携: パーソナライゼーション、スタイル参照 (--sref)、ムードボードなど既存機能と併用可能。