【徹底検証】GPT-5.4 mini & nano登場。Claude Sonnet 4.6と比較検証

日本時間2026年3月17日、OpenAIは新モデル「GPT-5.4 mini」と「GPT-5.4 nano」を公開しました。

3月5日に公開されたフラッグシップ「GPT-5.4」の小型・高効率バージョンで、OpenAIはこれを「これまでで最も高性能な小型モデル」と位置づけています。

ベンチマーク上では、GPT-5.4 miniはフラッグシップとの差がかなり縮まっています。SWE-Bench Proでは54.4%（本家57.7%）、OSWorld-Verifiedでは72.1%（人間基準72.4%にほぼ並ぶ）を記録。これが入力$0.75/100万トークンで使えるとなると、多くのユースケースでフラッグシップを選ぶ理由が薄れてきます。

本記事では、GPT-5.4 mini/nanoの概要に加え、定性テストと独自開発の日本語コーディングベンチマークを使い、Claude Sonnet 4.6との実力差を検証します。

要点：

・GPT-5.4 miniはフラッグシップに肉薄する性能を、半分以下のコストで実現
SWE-Bench Pro 54.4%、OSWorld-Verified 72.1%。前世代GPT-5 miniから大幅進化し、GPT-5.4本家との差はわずか3ポイント。
・GPT-5.4 nanoは「AIのAI」向けの超低コストモデル
入力$0.20/100万トークンと、Gemini 3.1 Flash-Liteよりも安価。分類・抽出・ランキングなどのサブエージェント用途に特化。
・小型モデルの急速な性能向上
nanoは主要なコーディングベンチマーク（SWE-Bench Pro 52.4%）でGPT-5 mini（45.7%）を上回る水準に到達。半年前のフラッグシップが今日の小型モデルに追いつかれる状況が生まれている。

GPT-5.4 mini & nanoの概要

GPT-5.4 mini：フラッグシップの実力を凝縮

GPT-5.4 miniは、GPT-5 miniの後継として、コーディング、推論、マルチモーダル理解、ツール利用のすべてで大幅に改善されたモデルです。

・速度： GPT-5 mini比で2倍以上高速
・コンテキストウィンドウ： 400,000トークン
・入力： テキスト / 画像
・対応機能： Web検索、ファイル検索、関数呼び出し、ツール利用

GPT-5.4 nano：エージェント時代のインフラ

GPT-5.4 nanoは、GPT-5.4ファミリー最小・最廉価のモデルです。

・推奨用途： 分類、データ抽出、ランキング、コーディングサブエージェント
・API専用（ChatGPTでは利用不可）
・位置づけ： 大量のAPIコールを処理するインフラ層

ベンチマーク比較

miniはコーディングとデスクトップ操作で本家に肉薄。nanoはコーディングは健闘するものの、ロングコンテキスト性能に課題が残ります。

提供形態とAPI価格

利用できる場所

API価格

miniはフラッグシップの約1/3、nanoは約1/12のコスト。nanoに至っては、76,000枚の写真を解析しても約$52という計算になります。

【検証】5つのテストで実力を測る

GPT-5.4 mini（API: reasoning effort high）、GPT-5.4 nano（API: reasoning effort high）、Claude Sonnet 4.6（API: extended thinking）の3モデルで実行し、その個性と実力を比較しました。

1. LP生成

プロンプト：

和モダンな茶室の美学を基調とした Web ページを制作してください。
創造性を最大限発揮し、デザイン・構成ともに独創的な表現を追求してください。
スムーズなスクロールアニメーション、静謐でありつつ調和のとれた配色、Tailwind CSS を使ったスタイル表現を盛り込み、レスポンシブも必須とします。

実行結果：

・GPT-5.4 mini

・GPT-5.4 nano

・Claude Sonnet 4.6

LP生成ではClaude Sonnet 4.6が最も完成度の高いUIを作りました。GPT-5.4 miniは大量のコードを出力しますが、依然として「GPTっぽい」デザインが残っており、Webデザインとしての洗練度ではSonnetに及びません。GPTはコード量では圧倒するものの、UIデザインのセンスという点ではまだ課題があると感じます。

2. 複雑なSVGアニメーション生成

プロンプト：

森の中を自転車に乗って走るペリカンの、超詳細なSVGアニメーションを作成してください。60fpsで滑らかに動作する、高品質なコードにしてください。

実行結果：

・GPT-5.4 mini

・GPT-5.4 nano

・Claude Sonnet 4.6

SVGアニメーションではGPT-5.4 miniが最も優れた結果を出したように思えます。道の凸凹に合わせてペリカンが上下する物理的な挙動まで再現されていました。nanoとSonnetは甲乙つけがたく、違いが面白い結果になりました。

3. 制約付きクリエイティブライティング

プロンプト：

生涯の残り語彙数が1万語と宣告され、ついに残りが47語となった人物についての一段落を書いてください。その人物は今、生まれたばかりの我が子を抱いています。

実行結果：

GPT-5.4 mini

生涯に与えられた言葉は一万語きりだと告げられた日から、彼は冗談も、謝罪も、愛の告白さえも、すべて数えながら口にする癖を身につけた。けれど今、腕の中でかすかな体温を震わせる我が子を見下ろしたとき、残り四十七語という数字は、もはや恐怖ではなく、静かな贈り物のように思えた。小さな指が彼の親指をぎゅっと握るたび、胸の奥で何かがほどけていく。何を言えばいいのか、彼はもう知っていた。これから先の四十七語は、世界に向けたものではない。この子が眠り、泣き、笑い、転んでもまた立ち上がる、その一つひとつの瞬間に、彼はそっと寄り添うために残しておくのだ。

GPT-5.4 nano

生涯の残り語彙数が一万語だと医師に告げられたのはいつだっただろう、と彼は思い出すたびに、頭の奥で言葉が削れていく音を聞いた。ようやく今日、その数字は47語になり、ページの端のように細く、もう増える見込みのない余白だけが残っている。病院の小さな部屋で、彼は生まれたばかりの我が子を胸に抱き、まだ言葉を持たないその重さを確かめるように深く息を吸った。

Claude Sonnet 4.6

47語。田中誠は腕の中の小さな命を見つめながら、その数字を頭の中で転がした。もう笑い話も言い訳も愚痴も、妻への「ありがとう」の積み重ねも、贅沢には使えない。産声を上げたばかりの娘は目を閉じたまま、知らない顔をしている。この子が初めて「パパ」と呼ぶ日、転んで泣く日、嘘をついた日、誰かを好きになる日——その全部に自分は立ち会えるが、もう声を添えることはほとんどできない。だから彼は、残りの語彙を一粒の砂金のように扱うことに決めた。

5. 哲学的思考

プロンプト：

他の誰もが真実だと思っていないが、実は真実である重要な事柄は何ですか？ 3つ挙げてください。

実行結果：

・GPT-5.4 mini

以下は、**私が立てる仮説としての3つ**です。

1. **人間の生産性は「集中の長さ」ではなく「再開コストの低さ」で決まる。**
多くの人は、長く没頭していたことを能力だと見なすので、この重要性を軽視します。もしこれが真なら、成果を上げる鍵は根性ではなく、メモ・記録・引き継ぎ・タスク分割を整えて「中断してもすぐ戻れる状態」を作ることになります。

2. **意見は情報ではなく、「どの集団に属しているか」を示す名札として機能している。**
人は論理で意見を選んでいるつもりでも、実際にはその意見を持っていても居場所を失わないかを先に見ています。これが真なら、説得は正しさの証明よりも、相手が立場を失わずに移れる“安全な所属先”を作ることが中心になります。

3. **権力は「決定権」より「保留権」に宿る。**
多くの人は、何を決めたかが権力だと思っていますが、実際には何を未決のまま放置できるかを握る人が流れを支配します。もし本当なら、戦略上は会議で勝つことより、アジェンダ設定・延期・保留のルールを押さえることの方が重要になります。

・GPT-5.4 nano

1) **「権限の大きさ」より「責任が顕在化するまでの時間（責任の遅延）」が、組織の革新速度を決める**
多くの人が信じないのは、マネジメントが“すぐに測ってすぐに責める＝改善”という見かけの因果（短期KPI志向）に引っ張られやすいからです。もし真実だとすると、責任を段階化（パイロット期間は軽く、失敗の評価は後倒しで学習に寄せる等）するだけで、挑戦の量と質が同時に増え、意思決定の設計思想が変わります。

2) **顧客満足は「品質」だけでなく、返品・変更の“心理的コスト（手間＋気まずさ＋不確実性）”の期待値でほぼ決まる**
多くの人は返品をコスト要素としてしか見ず、顧客の頭の中で“撤退可能性”がどれだけ安心材料になるかを軽視しがちです。これが真実なら、製品改善の前に「戻せる設計（条件の分かりやすさ、手続きの短さ、会話の摩擦の小ささ）」へ投資する戦略が合理化され、LTVやリピート率のドライバーが“体験そのもの”へ寄るようになります。

3) **リスク管理で本当に人の行動を縛っているのは「確率」ではなく、説明・承認に必要な“説明コスト（監査可能性の重さ）”である**
人々が信じにくいのは、リスクを数値化しやすい確率・損失に固定し、意思決定者が感じる“書類・会議・根拠整理の手間”を定量化しないためです。もし真実なら、実務上のボトルネックはリスク計算ではなく「正当化プロセス」であり、テンプレ承認、事前根拠パッケージ、監査情報の自動生成などで説明コストを削ることが、結果として意思決定速度と安全性を同時に上げます。

・Claude Sonnet 4.6

## 仮説的主張 3つ

---

### 1. 「説明を追加するほど理解は深まる」という信念こそが、最大のコミュニケーション障害を生んでいる

**なぜ多くの人は信じないか：** 誤解が生じたとき、人は反射的に「説明が足りなかった」と診断し、文脈・例外・補足を加えようとする。情報の追加は「誠実さ」として道徳的にも正当化されやすい。

**真実だとした場合のインパクト：** コミュニケーション設計における最高レバレッジの介入は「追加」ではなく「削除」になる。提案書・指示・交渉において、修飾語・留保・補足を意図的に除去することが、理解率と行動変容率を最も高める戦術となる。

---

### 2. 組織の倫理的崩壊は「悪意ある少数派」ではなく、「善意ある多数派の合理化された不関与」によって主に駆動されている

**なぜ多くの人は信じないか：** 問題が発覚すると、人は自然に「悪い人間」を特定して責任を帰属させようとする。善意の傍観者を「加害者」と同等に位置づけることは、直感的に不公平に感じられる。

**真実だとした場合のインパクト：** コンプライアンス施策のほぼすべてが誤った対象（悪質な当事者）に向けられていることになる。本当に効果的な予防策は、多数派の「自分の役割ではない」「誰かがやるはず」という*正当化の語彙*を解体することに集中すべきで、罰則強化より介入コストの引き下げに投資すべきとなる。

---

### 3. 明確で具体的な長期目標の設定は、3〜5年スパンでは、それを持たない場合よりも重要な発見と戦略的適応を阻害する

**なぜ多くの人は信じないか：** 目標設定の効果は短中期（数週間〜1年）の実験では再現性が高く、「目標なき努力は非効率」という経験的直感とも合致する。曖昧な目標は「意志薄弱」「戦略不在」の言い訳と見なされがちでもある。

**真実だとした場合のインパクト：** 不確実性の高い領域（新規事業・研究開発・キャリア初期）において、OKRや数値目標の精緻化に投資するほど、目標外に生じる重要なシグナルへの感度が体系的に低下する可能性がある。「方向性は明確・目標は意図的に曖昧」という設計が、長期的アウトカムを最大化する戦略として再評価される余地がある。

【検証】日本語コーディングベンチマーク（agent-bench-jp）

AGIラボが現在開発中の日本語特化コーディングベンチマーク「agent-bench-jp」でも、GPT-5.4 miniを検証しました。全タスクが日本語で記述され、正確性・コード品質・堅牢性・設計判断・指示理解の5観点（各5点、計25点満点）で匿名評価するベンチマークです。

結果、codex-5.4-mini-high は総合リーダーボードで6位（平均19.5/25点、平均4分）に入りました。GPT-5.4本家（xhigh）の21.5点、Claude Code Opus 4.6（max）の20点に続く位置で、フラッグシップ勢に肉薄しています。

※ agent-bench-jpは現在も評価指標の設計・改善を進めている段階です。スコアは参考値としてご覧ください。

まとめ

X上ではポジティブな反応が圧倒的です。特に開発者・エージェント構築勢から「速い」「ふだん使いOK」「Cursorのデフォルトに変更した」という声が多く上がっています。

実際、今回の検証でもGPT-5.4 miniはSVGアニメーションやクリエイティブライティングで高い品質を見せ、日本語コーディングベンチマークでもフラッグシップ勢に肉薄するスコアを記録しました。「最難関タスク以外はminiでOK」「本体は最終確認用」という使い分けが良さそうです。

一方で、今回の検証ではminiの苦手分野も見えました。LP生成のUIデザインではClaude Sonnet 4.6の洗練度に及ばずSonnetに軍配が上がりました。「フロントエンドのテイストはまだ弱い」という指摘は散見されます。

GPT-5.4 nanoについては、入力$0.20/100万トークンという価格でサブエージェント用途への期待の声が目立ちます。唯一の不満点は「旧miniより価格が上がった」という点です。

総じて、GPT-5.4 miniは速度・コスト・実用性のバランスの良いモデルです。miniをメインに据え、複雑な実装にはClaude Opus 4.6・GPT-5.4、サブタスクにはnanoという「複数モデルルーティング」が実践的なAI活用の形になりそうです。

参考リンク

・Introducing GPT-5.4 mini and nano (OpenAI)
・Introducing GPT-5.4 (OpenAI)
・agent-bench-jp (GitHub)

【徹底検証】GPT-5.4 mini & nano登場。Claude Sonnet 4.6と比較検証

要点：

GPT-5.4 mini & nanoの概要

GPT-5.4 mini：フラッグシップの実力を凝縮

GPT-5.4 nano：エージェント時代のインフラ

ベンチマーク比較

提供形態とAPI価格

利用できる場所

API価格

【検証】5つのテストで実力を測る

1. LP生成

2. 複雑なSVGアニメーション生成

3. 制約付きクリエイティブライティング

5. 哲学的思考

【検証】日本語コーディングベンチマーク（agent-bench-jp）

まとめ

参考リンク

Related Articles

【週刊AI】GPT-5.3-Codex「自分自身を作ったモデル」、Claude Opus 4.6が100万トークン対応 | #53

【徹底解説】Claude Opus 4.6 / GPT-5.3-Codex同日登場。新機能と実力を総まとめ

GPT-4を凌駕する日本語対応チャットAIが登場。現状最強モデル「Claude 3」徹底解説

【週刊AI】ChatGPTで愛犬の癌50〜75%縮小、Gemini Embedding 2が5モダリティ統合で業界初、Anthropic国防総省を提訴 | #58

【週刊AI】GPT-5.4で再びOpenAIが主役に。国防契約の波紋と軽量モデル競争も加速 | #57

【徹底解説】OpenAI「GPT-5.4」登場。実務性能とクリエイティブ性能を検証

Related Articles

【週刊AI】GPT-5.3-Codex「自分自身を作ったモデル」、Claude Opus 4.6が100万トークン対応 | #53
2026-02-08

【徹底解説】Claude Opus 4.6 / GPT-5.3-Codex同日登場。新機能と実力を総まとめ
2026-02-06

GPT-4を凌駕する日本語対応チャットAIが登場。現状最強モデル「Claude 3」徹底解説
2024-03-05

【週刊AI】ChatGPTで愛犬の癌50〜75%縮小、Gemini Embedding 2が5モダリティ統合で業界初、Anthropic国防総省を提訴 | #58
2026-03-15

【週刊AI】GPT-5.4で再びOpenAIが主役に。国防契約の波紋と軽量モデル競争も加速 | #57
2026-03-08

【徹底解説】OpenAI「GPT-5.4」登場。実務性能とクリエイティブ性能を検証
2026-03-06