【検証】Claude Sonnet 5が登場— Opus 4.8の6割の価格で「近づいた」と言えるか

2026年6月30日(米国時間)、Anthropicは新モデル「Claude Sonnet 5」(claude-sonnet-5)を公開しました。Sonnet 4.6の後継にあたるモデルで、同社は「Opus 4.8に近い性能を、より低い単価で使える中位モデル」と位置づけています。

ただし、外部評価では見方が分かれています。CursorやHarveyでは前モデルからの改善が報告されていますが、Artificial Analysisの複合指標では5位にとどまりました。また、標準価格で見たタスクあたりコストがOpus 4.8を上回るとの指摘もあります。

要点：

Sonnet 4.6からは明確に前進: 公式ベンチマーク、Cursor、Harveyのいずれも改善方向です。SWE-bench Proは58.1から63.2へ、CursorBenchは49%から57%へ伸びました。
Opus 4.8との差は残る: SWE-bench ProではOpus 4.8に6.0ポイント届かず、Artificial Analysisの総合指数でもOpus 4.7 / 4.8の後ろにいます。
価格は標準でOpus 4.8の6割、導入価格では4割: 標準は入力$3／出力$15、導入価格は入力$2／出力$10(100万トークンあたり)です。導入価格は2026年8月31日までです。
実効コストは別問題: Anthropicは新 tokenizer により同じ入力が約1.0〜1.35倍のトークンになりうると説明しています。Artificial Analysisも、標準価格ではSonnet 5のタスクあたりコストがOpus 4.8を上回ると報告しました。

Claude Sonnet 5の概要

Claude Sonnet 5は、Anthropicが「最もエージェント的なSonnet」と位置づけるモデルです。計画を立て、ブラウザやターミナルなどのツールを使い、以前ならより大きなモデルが必要だった自律的な作業をSonnet帯で担えるようにする、という説明になっています。

主な特徴は次のとおりです：

APIモデルIDはclaude-sonnet-5
Sonnet 4.6の後継で、API上は差し替え対象
文脈窓は100万トークン、最大出力は12.8万トークン
adaptive thinkingが既定で有効
Free / Proの既定モデルとしてclaude.aiで提供
Claude Code、Claude API、Amazon Bedrock、Google Cloud、Microsoft Foundryなどで提供
ゼロデータ保持契約のある組織向けにZDRをサポート

安全性については、Sonnet 4.6より望ましくない挙動が少なく、幻覚や迎合も低いと説明されています。

サイバー領域についても言及があります。危険な能力は意図的に伸ばしておらず、性能はOpus 4.8やMythos 5より低くとどめられています。リアルタイムのサイバーセーフガードも既定で有効です。

早期利用者の声も公式発表に複数掲載されています。内容はおおむね、従来のSonnetが途中で止まっていた複雑なタスクを、より最後まで進められるようになったというものです。

公式ベンチマーク

実コード修正の難度を測るSWE-bench Proは、Sonnet 4.6の58.1からSonnet 5で63.2へ上昇しました。Opus 4.8の69.2とは、まだ6.0ポイントの差があります。

ターミナル操作を測るTerminal-Bench 2.1は67.0から80.4へ、PC操作を測るOSWorld-Verifiedは78.5から81.2へ伸びています。知的労働の質を対戦形式で評価するGDPval-AA v2では、Sonnet 5が1,618、Opus 4.8が1,615と、わずかにSonnet 5が上回りました。今回公開された数値の中では、Sonnet 5がOpus 4.8を超える数少ない指標の一つです。

公式発表では、effortを調整した場合のコストパフォーマンス曲線も示されています。Sonnet 5はSonnet 4.6より幅広いコストパフォーマンスの選択肢を持ち、タスクによっては高いeffort設定でOpus 4.8に迫る、といった内容です。

3件の外部評価まとめ

Cursorは、自社の実タスク評価CursorBenchで、Sonnet 4.6の49%からSonnet 5は57%へ伸びたと公式Xで報告しました。8ポイントの改善で、同社は意味のある前進と評価しています。

Artificial Analysisは、Intelligence Index v4.1でSonnet 5を53点としました。Sonnet 4.6から6ポイント改善し、GPT-5.5 high reasoningと同水準に達した一方、Opus 4.7とOpus 4.8には届いていません。順位としては5位です。

Artificial Analysisによると、標準価格で測ったSonnet 5のIntelligence Indexタスクあたりコストは$2.29でした。

これはSonnet 4.6の約2倍で、Opus 4.8より約15%高い計算です。背景にあるのはトークン使用量の増加です。

同社によると、Sonnet 5はSonnet 4.6より約40%多い出力トークンを使い、GDPval-AAなどの知的労働系評価ではエージェントのターン数も大きく増えているといいます。

Harveyは、全タスクの完遂を厳しく問うLegal Agent Benchで、Sonnet 4.6の5.0%からSonnet 5は5.8%に上がったと報告しました。Opus 4.8の9.6%、Fable 5の11.3%とはまだ差があります。一方、契約書ドラフトなどを測るBigLaw Benchでは91.3%を記録し、同社の自己最高を更新しています。

https://www.harvey.ai/blog/sonnet-5-in-harvey

外部評価をまとめると、Sonnet 5はSonnet 4.6より確実に進化しています。ただし、Opus 4.8の安価な代替モデルと見なすには、まだ議論の余地があります。性能順位や実効コストにおいて、タスクの種類によって評価が大きく分かれるためです。

提供形態と価格

API価格は、2026年8月31日までの導入期間が入力$2／出力$10、それ以降の標準価格が入力$3／出力$15です。

いずれも100万トークンあたりの価格です。Opus 4.8は$5／$25なので、単価だけを見るとSonnet 5は標準価格でOpus 4.8の6割、導入価格では4割になります。

ただし、Sonnet 5は新tokenizerを採用しています。Anthropicの発表によれば、同じ入力でも内容によって約1.0〜1.35倍のトークン数に増える可能性があると説明されています。

提供先は、Claude API、Claude Code、claude.ai、Amazon Bedrock、Google Cloud、Microsoft Foundryなどです。

Google Cloudについては、公式発表の脚注でサイバー検証プログラムの一部機能がcoming soonとされていますが、開発者向けドキュメントを見る限り、Sonnet 5自体はGoogle Cloud経由での提供対象に含まれています。

【実戦検証】AGIラボで2件試す

検証A: 継続ベンチ「自転車に乗るペリカンのSVG」

AGIラボでは、過去のモデル記事と同じプロンプトを、世代をまたいで使い続けています。（元ネタはSimon Willison氏の定番ベンチマークです。）

エフォートはHighで揃えています。

Sonnet 5：

Opus 4.8：

GPT-5.5：

Sonnet 5の出力は375行でした。
Codexの解説によると、CSSの@keyframes24個とSMILのanimateTransform5個を合わせて29個のアニメーションを含む構成で、空・太陽・雲・背景木・木漏れ日・中景木・地面・前景茂みという7層のシーンに、自転車とペリカン本体を重ねるという設計のようです。

正直なところ、期待していたほどではありませんでした。

検証B: McKinsey級レポートを、架空の数値なしで作る

もう1件は、コンサルティングファームの公式レポートと同水準の資料を、ゼロから作らせる検証です。テーマはSonnet 5の位置づけに重ねて、「エージェント経済性の転換点 — Sonnet級モデルが変える企業AI導入のコスト構造」としました。条件は、図表をすべて自前のインラインSVGで描くこと、架空の数値を一切使わないことです。

エージェント経済性の転換点 — Sonnet級モデルが変える企業AI導入のコスト構造.pdf 2.63 MB ファイルダウンロードについてダウンロード

ぜひ感想はコメントなどでいただけると嬉しいです。

まとめ

Claude Sonnet 5は、Sonnet 4.6からの正統なアップグレードです。公式ベンチマーク、Cursor、Harveyの結果を見る限り、前世代より向上したこと自体は疑いようがありません。

一方で、Opus 4.8を安価に代替するモデルとまで言えるかどうかについては、慎重な判断が必要です。SWE-bench Proでは依然として差があり、Artificial Analysisの総合指数でもOpus 4.7 / 4.8の後塵を拝しています。さらに標準価格ベースでは、トークン使用量の増加によってタスクあたりのコストがOpus 4.8を上回るという外部評価も出ています。

現時点での結論は、「Sonnet 4.6からは明確に前進。ただし、Opus 4.8級を安く使える、というほど単純ではない」と言えるでしょう。

追伸：Sonnet 5リリースから数時間後の日本時間午前9時頃、AnthropicからFable 5およびMythos 5のアクセス復旧が公式に発表されました。

公式Xでは「明日からアクセス復旧を開始する」とアナウンスされています。日本時間6月13日の規制で停止されていたFable 5が、一般ユーザー向けに再び提供される見込みです。

Fableが一般公開されることで、現在は一部のパートナー向けにのみ公開されているGPT-5.6の一般アクセス開放も期待されます。

今週はまだまだ大荒れとなりそうです。引き続き目が離せません。

AGIラボについて

この記事のように「AIエージェントを実務でどう使い倒すか」を、AGIラボでは日々検証しています。

記事:日刊AI新聞と、深掘りの検証記事
ツール:AGI Cockpit / AGI Gestures / GAS Interpreter(Claude Code・Codex・Geminiを一画面で並行運用)
コミュニティ:Discord・Meetup・ハッカソン
講座:Claude Code入門ほか、実践で学べるオンライン講座

7日間は無料で試せます。→ https://agi-labo.com

参考リンク

公式

Introducing Claude Sonnet 5(Anthropic): https://www.anthropic.com/news/claude-sonnet-5
Claude Sonnet 5の変更点(Claude Platform Docs): https://platform.claude.com/docs/en/about-claude/models/whats-new-sonnet-5
Claude モデル一覧(Claude Platform Docs): https://platform.claude.com/docs/en/about-claude/models/overview
Claude API 価格ページ(Anthropic): https://www.anthropic.com/pricing

外部評価

Cursor 公式X(CursorBench): https://x.com/cursor_ai/status/2072020786181988418
Artificial Analysis — Claude Sonnet 5: https://artificialanalysis.ai/models/claude-sonnet-5
Artificial Analysis 公式Xスレッド: https://x.com/ArtificialAnlys/status/2072062592923930666
Sonnet 5 in Harvey(Harvey公式ブログ): https://www.harvey.ai/blog/sonnet-5-in-harvey

【検証】Claude Sonnet 5が登場— Opus 4.8の6割の価格で「近づいた」と言えるか

要点：

Claude Sonnet 5の概要

公式ベンチマーク

3件の外部評価まとめ

提供形態と価格

【実戦検証】AGIラボで2件試す

検証A: 継続ベンチ「自転車に乗るペリカンのSVG」

検証B: McKinsey級レポートを、架空の数値なしで作る

まとめ

AGIラボについて

参考リンク

公式

外部評価

Related Articles

GPT-5.5に29点差。政府限定だった『Mythos』が Claude Fable 5 として解禁【独自検証】

Claude in PowerPoint を触り倒してみた：導入手順から「実務で使えるか」の判断まで

【検証】Claude in Excelに引き継ぎExcelを丸投げしてみた

【週刊AI】GPT-5.6が限定プレビュー、Claude TagとAIチップJalapeñoも登場 | #72

【週刊AI 特別号】Claude Fable 5、公開3日で全ユーザー停止。米政府の指示をめぐり何が起きたのか

【週刊AI】Anthropic、コードの8割をClaudeで作成。「AIがAIを作る」レポートでは開発一時停止の選択肢にも言及 | #70

Related Articles

GPT-5.5に29点差。政府限定だった『Mythos』が Claude Fable 5 として解禁【独自検証】
20日前

Claude in PowerPoint を触り倒してみた：導入手順から「実務で使えるか」の判断まで
2026-04-02

【検証】Claude in Excelに引き継ぎExcelを丸投げしてみた
2026-02-04

【週刊AI】GPT-5.6が限定プレビュー、Claude TagとAIチップJalapeñoも登場 | #72
2日前

【週刊AI 特別号】Claude Fable 5、公開3日で全ユーザー停止。米政府の指示をめぐり何が起きたのか
16日前

【週刊AI】Anthropic、コードの8割をClaudeで作成。「AIがAIを作る」レポートでは開発一時停止の選択肢にも言及 | #70
23日前