2025年2月25日、Anthropicは最新モデル「Claude 3.7 Sonnet」と、新しいエージェント型コーディングツール「Claude Code」をリリースしました。

従来の「Claude 3.5 Sonnet」よりも大幅に性能が向上し、コード生成やマルチステップ推論の精度がさらに洗練されています。

特に、拡張思考(extended thinking)の導入による数学・物理・プログラミング領域での精度向上が注目されています。さらに、同日発表のClaude Codeにより、端末上のファイル編集やテスト実行まで一括で行うエージェント機能が研究プレビュー版として提供開始されました。

Claude 3.7 Sonnetが正式リリース

単一モデルで高速応答+深い思考を両立

Claude 3.7 Sonnetは、迅速なレスポンスが必要なシンプルなタスクから、段階的思考を要する複雑な課題までを1つのモデルで処理します。

最大128Kトークンまでの拡張思考が可能で、特に数学・物理・科学分野での解答精度向上が顕著です。APIなどを通じて、思考に使うトークン量(思考予算)を細かく設定できます。

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-3-7-sonnet-20250219",
    max_tokens=128000,
    thinking={
        "type": "enabled",
        "budget_tokens": 32000
    },
    messages=[{
        "role": "user",
        "content": "Generate a comprehensive analysis of..."
    }],
    betas=["output-128k-2025-02-19"]
)

print(response)


コーディング性能の大幅強化

従来から得意としていたコード生成がさらに強化され、以下のような数値データが公表されています。

  • SWE-bench Verified(ソフトウェア開発課題)

    • Claude 3.7 Sonnet:62.3%

    • 追加の検証プロセス(再試行やパッチ適用)を含めた場合70.3%

Anthropic
  • TAU-bench(エージェント的タスクの実行テスト)

    • 小売関連タスク:81.2%

    • 航空関連タスク:58.4%

いずれも前モデル(Claude 3.5 Sonnet)や他社のモデルを10~15ポイント以上上回る結果であり、複雑なソフトウェア修正や連続的なツール操作にも対応できることが示されています。


新ツール「Claude Code」の登場

エージェント型コーディングの研究プレビュー

Claude Codeは、コマンドライン操作を通じて、コードの編集やテスト、GitHubリポジトリへのコミットなどをClaudeに任せられる新ツールです。

研究プレビュー段階のため、参加には事前登録が必要ですが、実際に以下のような作業を自動化可能です。

  • テスト駆動開発:テストコード作成、実行、修正

  • バグ修正や大規模リファクタリング:複数ファイルへのパッチ適用

  • ビルド・デプロイプロセスの連続実行

Anthropic

GitHub連携の強化

Claude CodeはGitHubリポジトリと直接やり取りできるため、ローカルとリモートの両面でコードを一貫して管理できます。

また、Claude.aiのGitHub統合機能も拡張されており、一度に多くのファイルを扱うタスクテスト自動化がスムーズに行えるようになっています。


拡張思考(Extended Thinking)の性能

数学・物理・コーディングへの適用

Claude 3.7 Sonnetは「extended thinking mode」をオンにすることで、最大128Kトークンに及ぶ推論過程を踏むことができます。これにより、AIME(数学コンテスト)や物理問題で高い正答率を示し、複雑なコード生成やデバッグでも着実に精度が向上しています。

  • Math500(数学問題集)96.2%到達

  • 高難度高校数学(AIME 2024相当):思考トークン数に応じて最大約80.0%程度の向上

長期タスクでの成果

段階的思考のメリットは、ポケモンのようなゲームをプレイさせる実験でも確認されています。

Claude 3.7 Sonnetは、画面入力(ピクセル情報)を受け取りながら数万回以上のアクションを連続実行し、ジムリーダー3人を突破するなど、以前のバージョンが到達できなかった領域に進むことに成功したと報告されています。

思考の可視化と注意点

拡張思考モードでは、Claudeの思考過程を一部“可視化”する機能も用意されています。

ユーザーはモデルがどのように推論しているかをリアルタイムで確認できますが、安全性や機密性に配慮し、一部の内容は暗号化される場合があります。

提供開始時期と価格

各プランでの提供状況

Anthropicは、Claude 3.7 Sonnetを以下のプランで即日提供開始しています。

  • Claude Free:標準的な機能を利用可能

  • Claude Pro / Team / Enterprise:extended thinkingを含むフル機能を利用可能

  • Anthropic API / Amazon Bedrock / Google Cloud Vertex AI:順次アップデートを展開予定

plans

API料金体系

料金設定は以下の通りでこれまで同様、従量課金制です。

  • $3 / 1M入力トークン

  • $15 / 1M出力トークン(extended thinkingの思考トークン含む)

この価格設定により、既存ユーザーが大きなコスト増なく新モデルを試せる点が特徴といえます。

今後の展開

近日実装予定の機能

Anthropicは、Claude 3.7 SonnetおよびClaude Codeに関して、今後数週間~数か月以内に以下の機能改善を予定しています。

  • ツールコール信頼性の向上:コマンド実行時の例外処理や再試行ロジックを強化

  • 長時間コマンド・大規模ファイル操作への最適化:ビルドやデプロイなど連続する工程をより安定化

  • 可視化された思考過程(visible thought process)の改良:思考内容の要約や選択的表示機能の検討

Claude Codeのアップデート方針

研究プレビュー中のClaude Codeは、ユーザーからのフィードバックを優先し、以下の観点で改良を進めるとしています。

  • パフォーマンス:高負荷タスクや大規模リポジトリ対応

  • 安全性:誤ったコード生成や秘匿情報漏洩防止の仕組み強化

  • ユーザビリティ:操作履歴の可視化やターミナル上のメッセージ整理

まとめ

Claude 3.7 Sonnetは、単一モデルで高速応答と段階的思考を両立し、コーディングや長期タスクにも強くなった点が最大の特徴です。特に拡張思考による精度向上は、複雑な数理問題や大規模ソフトウェア開発を行うユーザーにとって大きなメリットとなるでしょう。

同時発表されたClaude Codeは、コマンドライン上でのコード編集やテストなど、開発工程を自動化するエージェント型ツールとして試験投入されています。現時点では研究プレビューですが、将来的には、さらに高度なエンジニアリング作業を一括して処理する機能が期待されます。

今週にはOpenAIから最新モデルGPT-4.5が登場するのではという噂も流れています。各社、今後の展開に注目が集まります。

参考