今週は、Anthropicが最新モデル「Claude 3.7 Sonnet」をリリースしたのを皮切りに、OpenAIが「GPT-4.5」を発表、MetaがChatGPT対抗の新たなスタンドアロンアプリを計画、さらにAmazonもAlexaを大幅に進化させたエージェント型AI「Alexa+」を発表しました。次々と登場する新技術が、日常生活やビジネスのあり方まで変えようとしています。

今回もChatGPT研究所では、AI業界の重要なニュースを厳選し、ポイントを絞って分かりやすくお伝えします。

1. OpenAIが「GPT-4.5」を公開

2025年2月28日、OpenAIは最新の大規模モデル「GPT-4.5(Orion)」の研究プレビュー版を発表しました。今回のモデルは従来モデルと異なり、推論能力に特化せず教師なし学習(Unsupervised Learning)の大幅なスケールアップを特徴としており、広範な世界知識や自然なコミュニケーション能力、情緒的知性(EQ)の向上を実現しています。

GPT-4.5の主な特徴としては、まず教師なし学習による大規模なデータ活用があります。これによりモデルは世界に関する深い理解や直感的な応答能力を高め、自然で精度の高いコミュニケーションを可能にしています。

また、公式ベンチマークによる性能評価でも大きく改善されており、シンプルな質問に対する回答正確率は従来モデルGPT-4oの38.2%から62.5%へと大幅に向上しています。さらに、AI特有の誤情報生成(ハルシネーション)も大幅に減少し、61.8%から37.1%まで改善されました。

左:シンプルな質問に対する回答正確率(高い方が良い)
右:ハルシネーション率(低い方が良い)

その他、ベンチマーク評価の具体的な改善点は以下の通りです。

  • シンプルな質問の正確な回答率が大きく向上し、一般的な日常利用における信頼性が向上しています。

  • 科学や数学、多言語などの専門的な分野でも性能が改善され、幅広いユースケースに対応可能になっています。

また、GPT-4.5はユーザーとの協調や情緒的理解を高めており、日常のコミュニケーションや専門的な対話シナリオにおいても従来モデルを上回る結果を示しています。創造性や感情を理解し自然な反応を示す能力が向上しており、特に人間的なコミュニケーションを重視する場面で強みを発揮します。

専門家やアーリーテスターからの評価では、「巨大モデル特有の魅力があり、数値ベンチマークだけでは伝えきれない特性を備えている」(Matt Shumer氏)、「一般知性(Gファクター)が高く、非常に幅広い用途で安定した性能を示している」(Aidan McLaughlin氏)、「緩やかだが確実に全般的な品質が向上しており、AIが親友のような存在になりつつある」(Dan Shipper氏)など、多様な側面で高く評価されています。

一方で、API利用の料金設定は従来モデルと比べてかなり高額であり、GPU不足のため利用開始が段階的になっているなど、コスト面や運用面での課題も指摘されています。

API料金体系

  • 入力トークン:$75 / 1Mトークン

  • 出力トークン:$150 / 1Mトークン

  • コンテキストウィンドウ:最大128,000トークン(128K)

GPT-4.5の料金設定は従来のGPT-4oモデルと比べて非常に高価であるため、特に長期的な運用におけるコスト管理が重要なポイントとなっています。

OpenAI CEOのサム・アルトマン氏は「GPT-4.5は初めて『思慮深い人と話している』と感じるモデルだ」とコメントしています。今後はユーザーや開発者からのフィードバックを収集しながら、モデルの改善や具体的な提供方法を模索していく方針です。

https://x.com/sama/status/1895203654103351462

GPT-4.5に関してはこちらで解説しています:

https://agi-labo.com/articles/nea5d3c3b0622


2. Anthropicが「Claude 3.7 Sonnet」を発表、コーディング性能が大幅向上

2025年2月25日、Anthropicは最新の大規模AIモデル「Claude 3.7 Sonnet」と新しいエージェント型コーディングツール「Claude Code」の研究プレビュー版を公開しました。Claude 3.7 Sonnetは従来のClaude 3.5から大きく性能を向上させており、特にコード生成やマルチステップの推論精度が高まっています。

https://www.anthropic.com/news/claude-3-7-sonnet

主な特徴

  • 拡張思考(Extended Thinking)の導入:最大128Kトークンを用いた深く詳細な推論が可能となり、数学・物理・プログラミング分野での回答精度が向上。

  • コーディング性能の向上:SWE-benchで最大70.3%の高精度を達成。小売や航空関連タスクを評価するTAU-benchでもそれぞれ81.2%、58.4%という高スコアを記録。

  • 新ツール「Claude Code」の提供開始:コード編集、テスト実行、GitHubへのコミットを自動化するエージェント型ツール。

https://www.anthropic.com/news/claude-3-7-sonnet

Claude Codeは研究プレビュー版としてリリースされ、開発者がコマンドライン操作だけでテスト駆動開発やバグ修正、大規模なリファクタリングといった作業を効率的に自動化できる環境を提供しています。

専門家やアーリーテスターからの評価も高く、「単一モデルで高速応答と深い段階的思考の両立を実現し、特に複雑なコーディングや数理問題の処理能力が非常に高い」との意見が寄せられています。

API料金体系

  • 入力トークン:$3 / 1Mトークン

  • 出力トークン(拡張思考を含む):$15 / 1Mトークン

今後のアップデート予定

  • ツールコール信頼性向上:コマンド実行時のエラー処理や再試行ロジックを改善。

  • 大規模ファイル操作最適化:連続するビルドやデプロイなどをより安定化。

  • 思考過程可視化の改善:モデルが行う推論過程を分かりやすく表示し、安全性にも配慮した表示機能を導入。

Claude 3.7 Sonnetに関してはこちらで解説しています:

https://agi-labo.com/articles/nf1727e3c207c

https://agi-labo.com/articles/nad57762d730a


3. Meta、ChatGPT対抗に向けスタンドアロンAIアプリを計画

Metaは、OpenAIやAlphabetに対抗すべく、独立したAIアプリを第2四半期にリリースする予定だと報じられています。これはCEOのマーク・ザッカーバーグ氏が掲げる「年内にAIのリーダーになる」という目標の一環で、既存のFacebookやInstagram、WhatsApp、Threadsなどに続く新たな独立アプリとして投入される見込みです。

meta.ai

Metaは2023年9月に大規模言語モデルを活用したチャットボット「Meta AI」を発表し、2024年4月にはFacebookやInstagramなど複数のアプリで検索機能をMeta AIが代替する形で統合を進めてきました。

今回のスタンドアロンアプリは、これまでのアプリ内統合をさらに発展させ、より深いユーザー体験を提供する狙いがあるとされています。

※ 現在日本からMeta AIを利用することはできません。

主な特徴:

  • スタンドアロンAIアプリの提供
    既存アプリから独立した形でMeta AIにアクセスできるため、チャット履歴の管理やデバイス連携(Ray-Ban Metaスマートグラスとの連動など)が容易になる見込み。

Meta Store
  • 有料サブスクリプション導入の検討
    OpenAIのChatGPTなどが採用している月額課金モデルを参考に、プレミアム版を提供する可能性があると報じられています。

  • 既存アプリとの併用
    引き続きFacebookやWhatsAppといった主要アプリ内でもMeta AIは利用可能。スタンドアロンアプリは追加の選択肢として機能する見通し。

  • 1年以内に世界最多のAIチャットユーザーを目指す
    ザッカーバーグ氏は、Meta AIを「世界で最も利用されるAIアシスタント」に育て上げたいと明言。既にアクティブユーザー数は約7億人に達しており、競合他社に対する開発スピードを高めるため、チームは週7日稼働の厳しい開発体制だと伝えられています。

その他のデータ:

  • Meta AIの月間アクティブユーザー数: 約7億人(2025年1月時点)

  • Meta AIウェブサイトの月間アクセス数: 1,000万未満(ChatGPTは今年2月時点で週間アクティブユーザー数4億人)

今後、Metaがスタンドアロンアプリと有料プランを組み合わせることで、新たな収益源を確立できるか注目が集まっています。MetaがFacebookやInstagramなどの巨大ユーザー基盤をどのように活用し、OpenAIやGoogleと激しく競合していくのか、引き続き大きな関心が寄せられています。