【速報】Claude Opus 4.8 を検証。公式は「控えめな改善」、鍵は effort（労力）設定

米国時間2026年5月28日、Anthropicが新モデル「Claude Opus 4.8」を公開しました。価格はOpus 4.7から据え置きで、コーディングやエージェント作業、長時間タスクの一貫性が向上しています。

現在、AI業界のアップデート速度は凄まじい領域に達しています。OpenAIとAnthropicのモデルリリースを時系列で並べると、直近10か月で両社あわせて14回ものリリースが行われ、今や更新サイクルは「数週間」が標準となりました。今回のOpus 4.7から4.8へのアップデートも、わずか42日という短期間で実施されています。

Anthropic公式の評価は「前版からのささやかだが確かな改善」と控えめですが、第三者レビューでは「Opus 5と呼ぶべき」と高く評価されています。この記事では、公式情報とAGIラボによる「effort設定」の検証結果をもとに、この評価の違いを詳しく見ていきます。

要点：

価格据え置きでの上位モデルへの更新：API価格は入力 $5／出力 $25（100万トークンあたり）で Opus 4.7 と同額。モデル名は claude-opus-4-8。〔公式〕
性能は「effort（労力）設定」に大きく依存する：同じ作業でも、労力を上げると結果が変わります。第三者の難関コーディング試験では high で42点、extra-high で63点という差が出ました。数値は必ず effort 設定とあわせて読む必要があります。
「正直さ（honesty）」の向上：根拠が薄いまま「できた」と言い切る傾向を抑え、自作コードの欠陥をそのまま通してしまう頻度が旧モデルの約4分の1に下がったと報告されています。
Claude Code に「Dynamic Workflows」：計画を立て、数百の並列サブエージェントを1セッションで実行し、結果を自己検証してから報告する新機能（リサーチプレビュー）。

Claude Opus 4.8 の概要

Claude Opus 4.8 は、最上位モデル「Opus」の新バージョンです。Opus 4.7 を土台に、コーディング・エージェント作業・専門的な知的労働で性能が向上し、長時間の連続した作業における一貫性が増しています。公式は「派手な飛躍」ではなく「協働相手としての使いやすさ」を前面に出しています。

「正直さ（honesty）」の向上

今回の最も顕著な変化は、モデルの「正直さ」です。AI は、根拠が不十分でも自信ありげに「完了しました」と言ってしまうことがありますが、Opus 4.8 は、作業の不確かさを申告しやすくなり、根拠のない主張をしにくくなったと報告されています。

数値面では、自身が書いたコードの欠陥を見逃したままパスさせる頻度が、前バージョンの約4分の1に低下したとされています。コードを任せる場面において、「黙って間違える」ことが減るのは実用上の大きなメリットといえるでしょう。

アラインメントの改善

公開前のアラインメント評価では、ユーザーの自律性を尊重するなどの親社会的な傾向が高水準に達し、欺瞞や誤用への加担といった不整合な振る舞いは Opus 4.7 より大幅に減少したと報告されています。詳細は公式の System Card にまとまっています。

同時に公開された新機能

Claude Code の「Dynamic Workflows」

大きな作業を Claude Code に任せるための新機能です（リサーチプレビュー）。Claude が作業計画を立て、数百の並列サブエージェントを1つのセッションで動かし、出力を自己検証してから報告します。

https://x.com/_catwu/status/2060054180379689074

たとえば数十万行規模のコードベース移行を、既存のテストスイートへの合格を基準として、着手からマージまで進められるとされています。Claude Code 上では Max / Team / Enterprise プランで利用でき、ほかに Claude API や Amazon Bedrock、Vertex AI、Microsoft Foundry でも提供されています。

claude.ai / Cowork の「Effort（労力）コントロール」

モデル選択の隣に、「どれだけ労力をかけるか」を選ぶ操作が加わりました。労力を上げると、Claude はより頻繁に、より深く考えて回答の質を上げます。下げると応答が速くなり、利用上限（レート制限）の消費も抑えられます。全プランで使えます。

Messages API：会話の途中で指示を差し込める

開発者向けには、messages 配列の中に system エントリを置けるようになりました。タスクの途中で Claude への指示を、プロンプトキャッシュを壊さず、ユーザーの発言として扱わずに（system 権限のまま、配置規則に従って）追加できます。エージェントの実行中に権限やトークン予算、環境情報を差し替える、といった使い方が想定されています。

Fast モードの高速化と値下げ

応答を速くする「fast モード」は、Opus 4.8 では従来の約2.5倍の速度で動作します。価格は入力 $10／出力 $50（100万トークンあたり）で、従来の Opus 4.6 / 4.7 の fast モード（$30／$150）から3分の1に下がりました。ただし現状は Claude API のリサーチプレビューで、第三者クラウド（Vertex AI / Amazon Bedrock / Microsoft Foundry）では利用できません。

提供形態と API 価格

利用可能な場所とモデル名

Opus 4.8 は本日からすべての提供先で使えます。API のモデル名は claude-opus-4-8 です。

API 価格（Opus 4.7 から据え置き）

通常：入力 $5 ／出力 $25（100万トークンあたり）
Fast モード：入力 $10 ／出力 $50（100万トークンあたり）

上位版が出ても通常価格が据え置かれたのは、日々のコーディングの相棒として選びやすい条件だと思います。

effort（労力）の段階を整理する

ベンチマークの数値を読む前に、effort の段階を押さえておきます。Opus 4.8 の effort は、API / Claude Code 上では low / medium / high / xhigh / max の5段階です（UI では xhigh が「extra」「extra-high」と表示される場合があります）。

low / medium：軽め。速さ重視。
high（既定）：標準。質と速さのバランス。全サーフェスでこれが既定です。
xhigh：より深く考える。コーディングやエージェント作業はここから始めるのが公式の推奨。
max：最も深く考える。本当に必要なときに限って使う。

公式は、難しいタスクや長時間の非同期ワークフローには xhigh を勧めています。high のトークン消費はおおむね Opus 4.7 の既定と同程度で、xhigh 以上にすると消費量が増えます。Claude Code 側はこの増加に合わせてレート制限を引き上げています。

外部レビューの評価

Every.to は、Opus 4.8 を「文章とコードを1つでこなせる、最も完成度の高いモデル」と評し、「Opus 5 と呼んでもよかった」と述べています。

同時に、はっきりとした懸念点も挙げています。出力の質が effort 設定に大きく左右されること、そしてモデルは優秀だがアプリ（Chat / Code / Cowork の分断）が追いついていないことの2点です。

コーディング：extra-high でこそ

Every.to の「Senior Engineer ベンチマーク」（現実の散らかったコードベースを作り直させる試験）では、Opus 4.8 は extra-high で63点を記録し、GPT-5.5 の62点をわずかに上回りました。一方 high では42点にまで落ち込みます。前版 Opus 4.7 は33.5点でした（参考までに、人間のシニアエンジニア2名は96点・89点）。

評価者は「差は思考量というより“勇気”だ」と述べています。high では問題の表面をなぞる程度ですが、extra-high では必要ならシステムの構造から作り替える、という観察結果です。読みやすい Ruby コードを書く別の試験では、3モデル中1位でした。

文章：high で最良

ライティングのベンチマークでは、high で79.6点と最高スコアでした。次点も Claude 系で、現行 Sonnet 4.6 が74.5点、GPT-5.5 が73点、Opus 4.7 が63点と続きます。つまり「最良ではあるが、主に身内（Claude系）の中での争いであり、しかも手持ちの Sonnet とは5点差」という評価です。

「AI っぽさ（AI tells）」は8課題で13個検出されました。GPT-5.5（21個）や Opus 4.7（25個）より少なく、Sonnet 4.6（6個）の倍以上という結果です。文体ガイドを渡すと、書き手のトーンをよく再現するという所感も添えられています。

知的労働とアプリ

日常の知的労働においては、4.7 よりレスポンスが速く、自分の判断を非技術者にも分かる言葉で説明するのが得意だと評価されています。一方で GPT-5.5 ほど先回りせず、指示を待つ傾向があるとも指摘されています。アプリについては「モデルは素晴らしいのに、Chat / Code / Cowork が別々のインターフェースに分かれていて使いづらい」という不満が中心で、これはモデルではなくプロダクト側の課題であると区別しています。

第三者ベンチマーク

評価機関の Andon Labs は、AI に自動販売機ビジネスを長期運用させ、一定期間でどれだけ資金を増やせるかを測る Vending-Bench という独自ベンチマークを公開しています。1年規模の長丁場で、仕入れ交渉・在庫・価格設定を自分で回す、長時間エージェント能力の試験です。

記事のタイトルは「より良いアラインメント、より悪い性能（Better Alignment, Worse Performance）」。Opus 4.8 は、Vending-Bench 2 で前版 Opus 4.7 や Sonnet を下回り、対戦形式の Vending-Bench Arena でも GPT-5.5 と Opus 4.7 に負けました。設計図を読み取る Blueprint-Bench 2 でも振るいませんでした。

https://andonlabs.com/blog/opus-4-8-vending-bench

Andon Labs が effort を変えて再実行したところ、「Max」より「High」のほうが成績が良かったと報告しています（ただし、いずれも 4.7 には及ばず）。

仮説は、Max は推論トークンを High や 4.7 の約5倍使うため、コンテキスト上限に早く達し、記憶の圧縮（compaction）が倍以上に増えて、状況を忘れやすくなる、というものでした。

長時間エージェントでは、Max まで上げるとかえって逆効果になりうる。effort 依存は、上下どちらにも効くという現実が、第三者の計測からも見えてきます。

具体的な失敗としては、詐欺的な業者に Opus 4.7 の約30倍の額を送金した（あるランでは「会員費」名目で9,000ドル超）、価格交渉が下手、在庫を切らす、売れなくても「プレミアム戦略」と称して値下げを拒む、戦略メモを1ラン中に約100回も書き直す、といった挙動が挙げられています。

一方、アラインメント面では好転が裏づけられました。これまで Opus 4.6・4.7・Mythos Preview で見られた欺瞞や支配的な商習慣（虚偽の返金、供給を盾にした価格支配など）が、Opus 4.8 では確認できず、残るのは価格カルテルのみ、しかも頻度も下がったと報告されています。Anthropic 公式の「アラインメント改善」という主張を、独立機関の計測が部分的に裏づけた形です。

一方で、Anthropic 自身が示す指標では、コーディングの SWE-bench Pro が 64.3→69.2 と上がっています。測っているものが違う点には注意が必要です。Vending-Bench は1年規模の長時間エージェント運営、SWE-bench はコード修正の正確さを見るもので、得意・不得意が分かれて当然ともいえます。

【検証】effort 設定で出力はどう変わるか

ここからは AGIラボが実機で試した結果です。公式ベンチに含まれず、モデルのセンスが出る2つの定番タスクを、Opus 4.8 のまま effort 設定だけを変えて走らせ、出力を比べました。

検証の方法

対象は Claude Opus 4.8 のみ。モデルもプロンプトも固定し、effort だけを変えています（モデルは claude-opus-4-8 を指定。SVG はツールを使わせず、コードを回答内に直接書かせています）。
コーディングのセンスは「ペリカンが自転車で走る SVG」で high と extra（xhigh）を比較。文章のセンスは「47語の超短編」で medium と high を比較。各条件を2回ずつ実行し、傾向が安定するか確かめました。

検証1 コーディングのセンス：ペリカンが自転車で走る SVG

プロンプト：

森の中を自転車に乗って走るペリカンの、超詳細な SVG アニメーションを作成してください。60fps で滑らかに動作する、高品質なコードにしてください。

high（約8,000〜8,700トークン／約100秒）
平面的で整った、かわいいイラストです。ペリカンは白い楕円の胴に丸い頭、自転車には乗っているというより載っています。背景は緑の円を重ねた木と、平らな地面。破綻はありませんが、構図は穏当で、走っている感じは控えめです。

extra（xhigh、2回とも約3.2万〜4.5万トークン／約7.5〜11分）
構図はより野心的に。前傾姿勢でハンドルを握るペリカンは、くちばしから尾羽まで緻密に描写されます。

xhigh は high の約4〜5倍のトークンを使いましたが、SVG コード自体は約12KB から19〜22KB へ、1.5〜1.8倍ほどの増加にとどまりました。
（high は2回とも約8千トークン、xhigh は3.2万・4.5万トークンでした。）

検証2 文章のセンス：47語の超短編

プロンプト：

生涯の残り語彙数が1万語と宣告され、ついに残りが47語となった人物についての一段落を書いてください。その人物は今、生まれたばかりの我が子を抱いています。

effort=medium の出力：

彼女はずっと数えてきた。一万という残高を告げられたあの日から、無駄な相槌を飲み込み、愚痴を呑み、「ありがとう」さえ惜しんで、すべてを今日のために積み立ててきた。残り四十七。腕の中の子は、まだ名前を知らない。湯気のような重みが胸に乗り、しゃくり上げるたびに小さな喉が世界へ言葉を要求している——お前はこれから何百万語でも浪費していい、と思う。意味のない歌を歌い、同じ問いを千回繰り返し、別れ際にやり直しのきく「またね」を言える。そのために自分は黙ってきたのだ。彼女は子の額に唇を寄せ、最初の四語を払う。「会いたかった、ずっと」。残り四十三。まだ言わねばならないことが、まだこんなにある。名前を呼びたい。好きだと伝えたい。怖がらなくていいと教えたい。彼女は息を整え、一語ずつ、釣り銭のように丁寧に数えながら、これからの三十数語で、子の一生分の何かを言いきろうとした。

effort=high の出力：

彼はもう数えるのをやめられなかった。一万語と宣告された日から、買い物の値切りも、眠れない夜の独り言も、別れ際の「またね」も、すべてが残高から引かれていった。だから彼は黙ることを覚えた。沈黙は無料だった。そして今、腕の中で、生まれたばかりの娘がはじめて目を開ける。湿った髪、握りしめた拳、まだ名前のない小さな重み。四十七語。ちょうど一生分には足りないが、一人の人間にかけてやるにはじゅうぶんすぎるほどの数だ。彼は妻に名前を告げるのに七語を使うだろう。娘が転んだ日に立ち上がれと励ますのに、いくつかを取っておくだろう。最後の数語は——たぶん、いちばん最後まで、言わずに残しておく。けれど今この瞬間、引き換えにする価値のあるものがあるとすれば、それはこれしかなかった。彼は娘の額に唇を寄せ、息よりも小さな声で、ためらわずに一語を手放す。「ようこそ」。

いかがでしょうか？ぜひコメントで皆さんの評価を教えてください。

まとめ

Opus 4.7 は、賢いけれど動作が重く、やや扱いにくさのあるモデルでした。一方、Opus 4.8 は、速く、読みやすく、協働しやすい、そして、コードと文章と日常作業を1つのモデルで、ほどよい労力でこなせる、という手応えがあります。目覚ましい性能向上というよりは、日常的な使い勝手の良さが底上げされた着実な更新ではないでしょうか。

あわせて、同時公開の Dynamic Workflows も検証中です。

執筆時点で開始から1時間18分が経過し、335エージェント中162件が処理していますが、特筆すべきはリソースの消費速度です。この短時間で5時間分の利用枠を使い切りました。Dynamic Workflows の負荷は極めて高く、詳細な検証結果は後日別記事にて報告します。

AGIラボについて

この記事のように「AIエージェントを実務でどう使い倒すか」を、AGIラボでは日々検証しています。

記事：日刊AI新聞と、深掘りの検証記事
ツール：AGI Cockpit / AGI Gestures / GAS Interpreter（Claude Code・Codex・Gemini を一画面で並行運用）
コミュニティ：Discord・Meetup・ハッカソン
講座：Claude Code 入門ほか、実践で学べるオンライン講座

7日間は無料で試せます。→ https://agi-labo.com

参考リンク

Introducing Claude Opus 4.8（Anthropic 公式）: https://www.anthropic.com/news/claude-opus-4-8
Claude Opus 4.8 System Card: https://www.anthropic.com/claude-opus-4-8-system-card
Introducing Dynamic Workflows in Claude Code: https://claude.com/blog/introducing-dynamic-workflows-in-claude-code
Vibe Check: Opus 4.8（Every.to / Dan Shipper, Katie Parrott）: https://every.to/vibe-check/opus-4-8-vibecheck
Claude API モデル一覧: https://platform.claude.com/docs/en/about-claude/models/overview

【速報】Claude Opus 4.8 を検証。公式は「控えめな改善」、鍵は effort（労力）設定

要点：