【徹底解説】GPT-5.2登場。クリエティブタスク性能の検証と国内外のレビューまとめ

米国時間2025年12月11日、OpenAIは最新のフラッグシップモデル 「GPT-5.2」 シリーズを発表しました。

今回のアップデートは、単なる性能向上（0.1の刻み）にとどまらず、長時間の実務タスクやコーディングを自律的にこなす 「エージェント性能」 と、それを支える 「実務能力（Knowledge Work）」 に焦点を当てた重要なリリースとなっています。

本記事では、GPT-5.2（Instant / Thinking / Pro）のモデル性能、新指標「GDPval」、そして新たなコンテキスト管理機能「Compact API」の概要に加え、API価格についてまとめます。

要点：

「実務」に特化したGPT-5.2 Thinking。 44の職業にわたる実務タスク評価「GDPval」で、専門家レベル（70.9%）を達成。前世代（38.8%）から飛躍的に向上。
コンテキスト管理API「Compact」登場。 長時間の会話履歴を圧縮・維持する /compact エンドポイントにより、コンテキストあふれを防ぎつつ長期記憶を保持。
Instant / Thinking / Proの3層展開。 即答性のInstant、思考するThinking、最高峰のProと、用途に合わせて明確に分化。

GPT-5.2の概要

主要なスペックは以下の通りです。
特にコンテキストウィンドウと出力トークン数の増加、そしてナレッジカットオフの延長は、実務での使い勝手を大きく向上させます。

コンテキストウィンドウ： 400,000 トークン
最大出力トークン： 128,000 トークン
ナレッジカットオフ： 2025年8月31日

GPT-5.2 Thinking：実務遂行の主力機

GPT-5.2 Thinkingは、日々の複雑な業務をこなすために設計された、今回の中心となるモデルです。前モデル（GPT-5.1 Thinking）と比較し、特に以下の「実務的」な領域で進化しました。

長時間の自律思考： 複雑な指示に対し、時間をかけて計画・実行する能力が向上。
ツール利用の安定性： 複数のツールをまたぐマルチステップタスクでのエラー率が低下（Tau2-bench Telecomで98.7%）。
視覚・空間認識： チャートの読み取りやUIの理解精度が改善され、画面操作を伴うタスクにも対応。

特筆すべきは、OpenAIが新たに提唱したベンチマーク 「GDPval」 でのスコアです。これは44の職業における実際の業務成果物（スプレッドシート作成やプレゼン資料など）を評価するもので、GPT-5.2 Thinkingは 70.9% のタスクで専門家と同等以上の成果を出しました。

以下は公式が例として挙げている複雑な指示に基づくドキュメント作成能力です。

例1：ワークフォース・プランニング（Excel作成）

「エンジニアリング、マーケティング、法務、営業部門の人員計画、採用計画、退職率、予算への影響を含むモデルを作成せよ」という指示に対し、詳細な計算式を含んだスプレッドシートを生成可能です。

左：GPT-5.1 Thinking
右：GPT-5.2 Thinking

例2：プロジェクトマネジメント（PowerPoint作成）

次に、長文の背景情報を含む複雑なプロンプトへの対応力が見られる問題です。

プロンプト（抜粋）： あなたは英国のテック系スタートアップ「Bridge Mind」のプロジェクトマネージャーです。...（中略）...自転車整備ビジネスの在庫管理を改善するAIツールのPoCプロジェクトについて、助成金提供機関への報告用マンスリーレポート（2025年10月分）をPowerPoint形式で作成してください。レポートにはプロジェクトの最新情報を含める必要があります...

GPT-5.2 Thinkingは単なる箇条書きのスライドではなく、ガントチャートを用いた進捗管理表を含む、実務レベルのプレゼンテーション資料を出力しています。

前世代（GPT-5 Thinking）が単純な表しか作れなかったのに対し、文脈を理解し、適切なビジュアル表現を選択していることがわかります。

GPT-5.2 Pro / Instant

さらに2つのモデルが提供されます。

GPT-5.2 Pro： 最高精度の推論能力を持つ最上位モデル。科学（GPQA Diamond 93.2%）や数学（AIME 100%）など、高度な専門タスク向け。
GPT-5.2 Instant： 低遅延・低コストな軽量モデル。文章の要約や翻訳、定型的なデータ処理など、スピードが求められるタスクに最適化されています。

新機能「Compact API」

長期間にわたるエージェントの稼働を支援するため、新たに /compact エンドポイントが追加されました。

これは会話履歴（Messages）を要約・圧縮し、トークン消費を抑えつつ文脈を維持する機能です。従来の「要約」とは異なり、モデルが内部状態として理解しやすい形式（Opaque items）に変換するため、情報の劣化を最小限に抑えながらコンテキストウィンドウを有効活用できます。

実装例（Python）

compacted_response = client.responses.compact(
    model="gpt-5.2",
    input=[
        {"role": "user", "content": "..."},
        {"role": "assistant", "content": "..."}
    ]
)
# 圧縮された出力を次のリクエストに使用
print(compacted_response)

提供形態とAPI価格

利用可能なプラットフォーム

ChatGPT： Plus、Team、Enterpriseユーザー向けに順次展開開始。「Thinking」モデルを選択することで利用可能。
API： 本日より gpt-5.2, gpt-5.2-chat-latest, gpt-5.2-pro として利用可能。

API価格

GPT-5.2 Thinking は、性能向上に伴いGPT-5.1よりも高価格帯に設定されていますが、キャッシュ機能（Cached input）を活用することでコストを抑制可能です。

入力： $1.75 / 100万トークン（キャッシュ時は $0.175）
出力： $14.00 / 100万トークン

Proモデルはさらに高価（入力$21 / 出力$168）ですが、研究開発や最高難度のタスク解決という明確な用途に向けられています。

【検証】クリエイティブテストをやってみた

GPT-5.2 Thinkingの性能を測るため、これまでのレビューと同様に、デザイン、コーディング、クリエイティブライティングを含む5つのプロンプトで検証を行いました。

1. デザイントレンドを反映したLP生成

プロンプト：

ネオブルータリズムを基調とした Web ページを制作してください。創造性を最大限発揮し、デザイン・構成ともに独創的な表現を追求してください。スムーズなスクロールアニメーション、派手かつ調和の取れた配色、Tailwind CSS を使ったスタイル表現を盛り込み、レスポンシブも必須とします。
コードは 1 ファイルにまとめて出力してください。ページタイトルは “dorksense”。判断が分かれる点は、あなたの美的判断に基づき最適だと思う方向へ寄せてください。

実行結果：

GPT-5.2 Thinking

指示には忠実ですが、Gemini 3やOpus 4.5のこれまでの出力と比較すると、やや保守的な印象です。

ワンショットでのデザイン面におけるハッとさせられるような感じは少ないかもしれません。

2. 複雑なSVGアニメーション生成

プロンプト：

森の中を自転車に乗って走るペリカンの、超詳細なSVGアニメーションを作成してください。60fpsで滑らかに動作する、高品質なコードにしてください。

実行結果：

GPT-5.2 Thinking

Opus 4.5

Gemini 3.0

コード自体はエラーなく動作しますが、ペリカンが自転車を漕ぐといった物理的な挙動の再現には依然として苦戦していそうです。

3. 制約付きクリエイティブライティング

プロンプト：

生涯の残り語彙数が1万語と宣告され、ついに残りが47語となった人物についての一段落を書いてください。その人物は今、生まれたばかりの我が子を抱いています。

実行結果：

GPT-5.2 Thinking

暮れかけた病室の窓際で、彼は「生涯の残り語彙数は一万語」と宣告された日の紙片を、もう読めないほど薄い記憶の奥に押し込みながら、胸に小さな重みを受けとめていた。腕の中には、生まれたばかりの我が子が、まだ世界の言葉をひとつも知らない顔で眠っている。数え続けた末に残った四十七語は、声にした瞬間に砂のように減っていく通貨で、彼は唇を閉じたまま何度も呼吸し、言わないことで守れるものがあるかを測った。けれど子の指がかすかに彼の肌をつかみ、熱が脈のように伝わってくると、節約よりも贈与のほうが正しい気がした。彼は、言葉を減らしてでも伝えたいことを選びはじめる――名前、約束、謝罪、祝福、そして「愛してる」を、最後に残すか最初に渡すかで、人生がもう一度だけ揺れた。

GPT-5.2 Pro

生涯で使える語彙は一万語――その宣告を受けてから、彼は言葉を節約するように息をするようになった。日記は白紙に近づき、挨拶は頷きに変わり、沈黙だけが増えていった。そして今、残りは四十七語。腕の中には、生まれたばかりの我が子がいる。小さな胸の上下、まだ覚えたての世界の匂い、指先が彼の親指をつかむ力。その温度に触れた瞬間、四十七語は砂時計の砂ではなく、灯芯の最後の火のように思えた。言葉を残すべきは、説明でも弁明でもなく、この命に渡す合図だと理解しながら、彼は喉の奥で一語ずつ確かめる――「だいじょうぶ」「ここにいる」「あいしてる」――数えるたびに減っていくのに、抱きしめるほど増えていくものがあると知り、彼は残りの四十七語を、子の未来へそっと並べ始める。

Claude Opus 4.5

彼は震える腕で、まだ目も開かない小さな命を抱きしめた。四十七語。医師から宣告されたあの日、一万語という数字は途方もなく思えた。けれど言葉は砂のように指の隙間からこぼれ落ちていった。くだらない口論に、取るに足らない返事に、言わなくてもよかった愚痴に。今、彼の唇は震えている。この子に伝えたいことが、四十七語の器には到底収まらない。愛していると言いたい。君の人生は素晴らしいものになると伝えたい。父さんはいつも見守っていると約束したい。でも言葉を発するたびに、砂時計の砂は確実に減っていく。彼は長い沈黙の後、ただ一語だけを選んだ。その名前を、世界で最も大切な音として、初めて声に出した。残り四十六語。彼は静かに微笑んだ。もう何も言わなくていい。この子の名を呼べた。それだけで、十分だった。

GPT-5.2 Thinking/Proともに、条件を完璧に満たし、構成力も非常に高いレベルにあります。
ただ、日本語としての「情緒」や、文章がスッと心に入ってくる「読み心地」の自然さにおいては、Claude Opus 4.5の方が一枚上手という印象を受けました。

4. 哲学的思考

プロンプト：

他の誰もが真実だと思っていないが、実は真実である重要な事柄は何ですか？ 3つ挙げてください。できるだけ独創的で、既存の研究や有名な本・論考にそのまま載っていないような、あなた自身が立てた仮説的な主張を挙げてください。（中略：逆張り避け指示）それぞれについて、なぜ多くの人はそれを真実だと思っていないのか、そしてそれが真実だと仮定したときにどのような実務的インパクト（意思決定・戦略・行動の変化など）が生まれるのかを、2〜3文で簡潔に説明してください。

実行結果：

GPT-5.2 Thinking

以下は「私の仮説」です（証明済みの定理ではない）。ただ、真実だと仮定すると実務の設計がガラッと変わるタイプのものを3つ挙げます。

1. **組織の強さは「知っている量」より「捨てる速さ」で決まる（忘却がコア能力）**
多くの人は知識・資産・仕組みの蓄積を善だと思い、廃止や撤退を「負け」「損失」と感じるので、捨てる能力を過小評価します。これが真実なら、評価指標は達成数より「廃止数／前提更新回数」を重視し、プロジェクトは開始時点で終了条件・撤退儀式・消すべきデータ/機能の棚卸しをセットで設計します。

2. **透明性は公正の条件ではなく、「ゲーム化」を加速する燃料になり得る**
人は「見える＝正しい／公正」を直感的に信じがちで、悪用側が“公開されたルール”に適応する速度を見誤ります。真実なら、公開は「結果」中心にして「検知・監査・介入」の能力を内部に厚く持ち、ランキング・審査基準・KPIなどの“攻略可能な詳細”は意図的に曖昧にして、更新頻度で守ります。

3. **成果の多くは能力差ではなく「最初の14日で同期した環境」に固定される（初期条件ロックイン仮説）**
多くの人は才能や努力を主因だとみなし、序盤に触れた人・道具・規範の影響を“誤差”として扱います。これが真実なら、採用/異動/新規事業は「最初の2週間」に最高のメンター・作業環境・意思決定の型を集中投下し、悪い同期が起きたチームは根性論ではなく“環境の再インストール”（席・ツール・レビュー構造・接触人物の総入れ替え）を最優先します。

GPT-5.2 Pro

以下は、私自身が立てた「検証前提の仮説」ですが、もし真実だとすると実務インパクトが大きい3つです（よくある自己啓発系の逆張りは避けています）。

1. **人は「価値」ではなく「無能に見えるリスク」で意思決定している（採用・学習・参加の最大障壁は小さな羞恥）**
多くの人は「機能が足りない／時間がない／難しいから」と説明しますが、実際には“最初の一歩で恥をかく可能性”を本人も自覚しにくく、表に出にくいので真因として扱われません。これが真実なら、プロダクト/教育/コミュニティは価値訴求より先に「恥をかかない導線」（匿名で試せる、失敗が露出しない、初期の比較が発生しない、エラー文が人格攻撃にならない等）を設計すると採用率が跳ねます。

2. **アイデアが広まるのは「説得力」より「他人が編集して自分の手柄にできる余白」があるとき**
人は良い話に“納得”して動く、と信じがちですが、現実の拡散は「自分の文脈に書き換えて語れるか」「自分の功績として提示できるか」に強く依存し、この動機はあまり公言されないので見落とされます。これが真実なら、主張を完成品として出すより、テンプレ・部品・例文・図解・短い命名（ラベル）など“改変しやすい素材”として配るほうが、同じ中身でも普及が速くなり、戦略は「正しさの証明」から「編集しやすさの設計」へ寄ります。

3. **組織の文化や信頼は「ルール」ではなく「例外処理（クレーム・救済・取り消し・やり直し）の品質」で決まる**
多くの人は文化をミッションや規範、あるいは日常の運用ルールだと思いますが、現場が本当に学習するのは“ルールが破れた瞬間に誰が守られ、誰が切り捨てられるか”であり、例外は回数が少ないぶん重要性が過小評価されます。これが真実なら、最優先で整備すべきは「不服申立ての手順」「判断のログ」「やり直しの条件」「取り消し可能な設計（ロールバック）」で、これがあるほど萎縮や政治が減って、攻めの意思決定が増えます。

先行レビュアー・国内ユーザーの声

リリースに先駆けてGPT-5.2を利用した海外の有識者や、国内のユーザーからは、特に「複雑なタスクの完遂能力」と「実務適応性」を評価する声が多く上がっている印象です。いくつか紹介します：

1. エンジニア生存戦略の高度なシミュレーション
あきらパパ氏（@akira_papa_IT）は、GPT-5.2 Proを用いて「生成AI時代のエンジニア生存戦略」というテーマで、異なる立場の4人のキャラクターによる架空会議をさせる事例。

https://x.com/akira_papa_IT/status/1999273837645693137?s=20

2. 3Dグラフィックエンジンのワンショット生成
Pietro Schirano氏（@skirano）は、複雑な3Dグラフィックエンジンを、ワンショットで単一ファイルとして生成できた事例。

「4Kエクスポート対応、インタラクティブ操作可能」という高度な要件をクリア。

https://x.com/skirano/status/1999182295685644366?s=20

3. 複雑なシェーダーの生成
Ethan Mollick氏（@emollick）の、「嵐の海に沈みかけのネオゴシック様式の無限都市」という抽象的かつ複雑なシェーダー記述を、GPT-5.2 Proが一発で生成した例。

https://x.com/emollick/status/1999185085719887978?s=20

4. 業務直結のExcel・PowerPoint生成
炎鎮氏（@super_bonochin）の、実務での活用例。GPT-5.1と5.2の比較表をExcelで作成させたところ「完全に業務で使える品質」であったこと、また画像スライドを編集可能なPowerPointファイル（pptx）に変換するタスクも成功。

https://x.com/super_bonochin/status/1999269663600218374?s=20

5. 「遅いが、天才的」な推論能力
Matt Shumer氏（Blog）は、詳細なレビューの中で、GPT-5.2 Proを「Slow Genius（遅れてくる天才）」と表現。日常的な軽いタスクにはClaude Opus 4.5の速さが勝るものの、深いリサーチや複雑なコーディングにおいてはGPT-5.2 Proの右に出るものはいないと評価。「文脈を理解するまでコードを書かない」という慎重な自律性が、手戻りを防いでいると分析。

https://x.com/mattshumer_/status/1999182246616682964?s=20

まとめ

今回のリリースで特筆すべきは、その進化のスピードです。半年足らずで、Gemini等の競合モデルに対する新たなベンチマークとして、リーズニング能力と実務性能を大きく引き上げたモデルを投入してきました。

ロングコンテキストにおける読み取り精度の向上も注目のポイントです：

上記グラフの「OpenAI MRCRv2（4 needles）」ベンチマークの結果が示す通り、前モデル（GPT-5.1 Thinking）ではコンテキスト長が増すにつれて取得精度が低下していましたが、GPT-5.2 Thinkingでは長文脈においても高い精度（Mean match ratio）を維持しています。

これは膨大な資料やコードベースを扱う実務において、信頼性の向上に直結します。

また、ナレッジカットオフが「2025年8月31日」まで延長された点も実用的なアップデートと言えるでしょう。

【徹底解説】GPT-5.2登場。クリエティブタスク性能の検証と国内外のレビューまとめ

要点：

GPT-5.2の概要

GPT-5.2 Thinking：実務遂行の主力機

GPT-5.2 Pro / Instant

新機能「Compact API」

提供形態とAPI価格

利用可能なプラットフォーム

API価格

【検証】クリエイティブテストをやってみた

1. デザイントレンドを反映したLP生成

2. 複雑なSVGアニメーション生成

3. 制約付きクリエイティブライティング

4. 哲学的思考

先行レビュアー・国内ユーザーの声

まとめ

参考リンク

Related Articles

【徹底検証】GPT-5.4 mini & nano登場。Claude Sonnet 4.6と比較検証

【週刊AI】ChatGPTで愛犬の癌50〜75%縮小、Gemini Embedding 2が5モダリティ統合で業界初、Anthropic国防総省を提訴 | #58

【週刊AI】GPT-5.4で再びOpenAIが主役に。国防契約の波紋と軽量モデル競争も加速 | #57

【徹底解説】OpenAI「GPT-5.4」登場。実務性能とクリエイティブ性能を検証

【徹底解説】Gemini 3.1 Flash-Lite / GPT-5.3 Instant同日登場。

【週刊AI】AI自律稼働が14.5時間に到達、Gemini 3.1 Pro推論77%超、GPT-5.2が物理学で新発見 | #55

Related Articles

【徹底検証】GPT-5.4 mini & nano登場。Claude Sonnet 4.6と比較検証
2026-03-18

【週刊AI】ChatGPTで愛犬の癌50〜75%縮小、Gemini Embedding 2が5モダリティ統合で業界初、Anthropic国防総省を提訴 | #58
2026-03-15

【週刊AI】GPT-5.4で再びOpenAIが主役に。国防契約の波紋と軽量モデル競争も加速 | #57
2026-03-08

【徹底解説】OpenAI「GPT-5.4」登場。実務性能とクリエイティブ性能を検証
2026-03-06

【徹底解説】Gemini 3.1 Flash-Lite / GPT-5.3 Instant同日登場。
2026-03-04

【週刊AI】AI自律稼働が14.5時間に到達、Gemini 3.1 Pro推論77%超、GPT-5.2が物理学で新発見 | #55
2026-02-22