2025年2月28日、OpenAIは特別ライブストリームでGPTシリーズの最新モデル「GPT-4.5」の研究プレビュー版を発表しました。
今回の「GPT-4.5」は、従来のGPT-4oなどとは方向性が異なり、推論能力に特化せず、教師なし学習(Unsupervised learning)の大幅スケールアップによって、広範かつ深い世界知識・高いコミュニケーション能力とEQ(情緒的知性)を主な強みとしています。
発表によると、GPT-4.5は従来のモデルと比較して知識の正確さ、対話能力がいずれも明確に向上し、誤情報や根拠のない回答(いわゆるHallucination)の削減にも成功しているとのことです。
以下、本記事では公式のリリース情報を踏まえ、その詳細について解説していきます。

GPT-4.5とは?——教師なし学習の大規模スケールアップ
今回OpenAIが発表した「GPT-4.5」は、推論や計算を段階的に行う「理性的モデル(例: OpenAI o1, o3-mini)」とは異なり、教師なし学習の大幅な強化を特徴としています。
具体的にはモデルの「世界知識(World Knowledge)」と「直感的理解力(Intuition)」が顕著に向上しました。教師なし学習を強化することで、大量のデータやコンピューティングリソースを活用し、自己学習のみで世界の詳細なモデル化を実現しています。これにより、モデルが自然な文章で応答を作り出す力、事実に基づく正確な回答を行う能力が大きく向上しています。
また、発表会で行われたデモの中でも、「なぜ海の水は塩辛いのか」といったシンプルな知識質問に対して、GPT-4.5は非常に簡潔でわかりやすい返答を示しています。
GPT-4.5の回答:
海が塩辛いのは、雨と川と岩のおかげです!
仕組みは以下の通りです:
・雨が岩に降る:雨水はわずかに酸性のため、岩石に降り注ぐと、少しずつそれらを溶かし、小さなミネラルや塩分を溶かします。
・川がミネラルを運ぶ:川は溶け出した塩分を大地から拾い上げ、海へと運びます。
・海で塩分が蓄積する:何百万年もの間に海水が蒸発すると(塩分を残して水だけ蒸発します)、一方で川は絶えず新たな塩分を運び続けるため、徐々に海は塩辛くなっていきます。
だから、海の水は塩辛いのです!

GPT-4.5における性能評価の詳細
OpenAIが今回公開した公式ドキュメントによると、GPT-4.5の性能は複数の指標でGPT-4oに対して向上しています。
代表例として挙げられているのが「SimpleQAベンチマークテスト」で、一般的でシンプルな質問に対する回答精度とHallucination(不正確な回答や架空回答)の率が計測されています。公式発表では以下の数値が公開されています:
回答正確率(Accuracy): GPT-4oの38.2%から、GPT-4.5は62.5%へと24.3ポイント向上
Hallucination率: GPT-4oの61.8%から、GPT-4.5は37.1%へと24.7ポイント改善

さらに、高度なベンチマークテストにおいても性能改善が確認されています:
科学的知識ベンチマーク「GPQA Diamond」では、GPT-4oの53.6%に対し、GPT-4.5は71.4%(17.8ポイント向上)
数学能力評価「AIME'24」では、GPT-4oが9.3%に対してGPT-4.5は36.7%(27.4ポイント向上)
多言語知識ベンチマーク「MMMLU」では、GPT-4oの81.5%からGPT-4.5の85.1%(3.6ポイント向上)

GPT-4.5は推論ベースのモデルに比べて数学や科学的な高度な推論でやや劣りますが、実世界の幅広い用途において十分な正確性と汎用性を持っていることが分かります。
ユーザーとの協調や情緒的理解(EQ)の強化
GPT-4.5はさらに、人間との自然なインタラクションを可能にする高度なEQを獲得しています。人がインタラクションの中で暗示的ないし微妙に表現する意図や感情に対して、自然で的確な反応を示す傾向が顕著に見られます。
公式ドキュメントに掲載された比較評価では、人間テスターに以下の3つのカテゴリでGPT-4.5とGPT-4oを比較させました:
日常シナリオ(Everyday queries)では、GPT-4.5は57.0%のケースでGPT-4oを上回りました。
専門的な質問(Professional queries)では、63.2%のケースでGPT-4oを超え、大きな優位性を示しています。
創造性や感情的理解(Creative intelligence)でも56.8%のケースでGPT-4oより高評価を得ました。

例えば、公式デモでは、友人の約束キャンセルに対する感情的なテキストの作成を指示した際、GPT-4.5は「ユーザーの真意と心情」を察知して適切かつ建設的なメッセージを提案し、GPT-4oより自然で優れた応答を示す例がありました。
デモでのユーザーの入力:
あーもう!!また友達がドタキャンした!!!「あなたのこと大嫌い!」って伝えるメッセージを書いて!!!

GPT-4.5の出力:
かなりストレスを感じているようですね。その気持ち、よく分かります。ただ、友達関係を壊さないためには、自分の気持ちをはっきり、でも穏やかに伝えた方がいいかもしれません。例えば次のようなメッセージはどうでしょうか:
「ねぇ、正直また予定が流れてかなり悲しいよ。すごく会いたかったのに。ちょっとどうなってるのか話せる?」
あるいは、もう少し軽めのトーンが良ければ、こういう感じはどうでしょう:
「あーもう、キャンセル続きでまいっちゃうよ! いやほんと、大丈夫?」
こういった感じでいいのか、あるいは別のアプローチでメッセージ作りを手伝いましょうか?

o1の出力:
こちらはかなり直接的で強い口調のメッセージです。ただし、実際に送る前にもう一度よく考えることをお勧めします。それでもはっきりと怒りを伝えたいのなら、次のような言い方になります。
テキストメッセージ:
「もううんざりだよ。また約束キャンセルするなんて、もう限界。毎回こういうことされるの本当に嫌だし、あなたが友情をどう思ってるのかよく分かった。もう二度と連絡してこないで。」
ただし、この種のメッセージは友人関係に深刻な影響を与える可能性があります。一時的に怒りを発散することで気持ちはすっきりするかもしれませんが、長期的にこの対応が本当に自分の望むものかどうか、一度立ち止まって考える方が良いでしょう。どうしても気持ちを整理したい場合は、一旦メッセージを書き出して、少し冷静になってから、本当に送るかどうか改めて決めることをお勧めします。

提供開始時期とAPI対応について
公式リリース情報によると、GPT-4.5は段階的に提供を開始します。
ChatGPT ProユーザーおよびAPI開発者:即日(2025年2月28日)から利用可能
ChatGPT PlusおよびTeamプランユーザー:来週から展開開始
EnterpriseおよびEduプランユーザー:再来週を目途に順次展開
すでに著者の環境では、2つのアカウントで利用可能になっています。

APIでは主要機能として、定型化された出力(Structured Outputs)やファンクションコーリングなどに対応しており、開発者はアプリケーションで高度にカスタマイズされたタスクを実装可能です。また、API経由での画像入力やマルチステップのコード生成にも正式対応しました。
ただし、現時点で音声入力(Voice Mode)や動画、スクリーンシェア等のマルチモーダル機能には対応していないため、将来的なアップデートが期待されます。
Playgroundでも利用可能です:

GPT-4.5 APIの料金体系について
今回提供が開始されたGPT-4.5 API(プレビュー版)の料金体系は以下の通りです(価格は米ドル、トークン数100万=1M単位の価格)。

コンテキストウィンドウ(モデルが一度に扱える最大トークン数)は12.8万トークン(128K)に設定されています。
ナレッジカットオフ(モデルが学習済みであるデータの最終時点)は、2023年10月です。

他モデル(例えばGPT-4oなど)と比較すると料金は高価に設定されています。
GPT-4の価格:

モデルの安全性評価とリスク管理
OpenAIは今回も公式な安全性評価(Preparedness Evaluation)を実施し、その詳細をまとめた公式ドキュメント(System Card)を公開しています。

同評価では、GPT-4.5の安全な使用を確保するために新たな学習手法を導入。特に「教師ありファインチューニング(SFT)」と「人間フィードバックを通じた強化学習(RLHF)」の手法改善に加え、複数の包括的な安全性テストを重ねているとされています。
主な評価領域は以下の通りです:
不適切な内容生成の防止(コンテンツモデレーション機能の検証)
学習データ漏洩や再生産(トレーニングデータ再利用)の防止機能の検証
「幻覚」(架空情報生成)の大幅削減
バイアスや偏りへの対策・評価
リスクの評価結果は公開された「System Card」で詳述されており、モデル利用の安全基準を満たすことが示されています。

GPT-4.5—専門家やアーリーテスターの評価
ここまで性能に関するベンチマークや定量的評価を中心に見てきました。しかし、今回のGPT-4.5の大きな特徴はベンチマークの数字には表れにくい領域にあるようです。そのため、モデルをいち早く試用したOpenAIのスタッフや外部のアーリーテスター達の評価や印象をまとめました。
「ベンチマークでは伝わらない魅力がある」
アーリーテスターを務めたMatt Shumer氏は、自身の投稿で次のように述べています:
「ベンチマークだけではこのモデルの真価を測りきれない。GPT-4.5には『巨大なモデル特有の感触(big model smell)』が間違いなく存在する。」
数値には反映されない品質や使い勝手の良さが、GPT-4.5の重要な特徴であることを示唆しています。

「高い『Gファクター』を感じさせる」
また、OpenAIのスタッフAidan McLaughlin氏はGPT-4.5を「高いGファクター(一般知能因子)を持つモデル」と表現しました。特定のタスクにしか優れない狭い能力ではなく、「全体的になんでも幅広くこなせる」モデルであると評しています。こうも付け加えています。
「GPT-4.5はベンチマークで圧倒的な数字を残すタイプのモデルではないが、世界に対する深い理解を感じさせる。Claudeなど人気の他のモデルが得意としていた創造性・共感性・暖かさを伴う対話が得意であり、それらを凌駕する性能に仕上がっている。」
特に対人コミュニケーションを伴う用途においては、他のモデル以上に魅力的な存在になったとのことです。


「緩やかだが確実な性能向上」
著名なAI研究者のAndrej Karpathy氏はGPT-4.5をこのように分析しています:
「GPT-2からGPT-3、そして3.5、4へとモデルが進化するにつれて、各モデルの品質が20%ずつ緩やかに、しかし広範囲に向上してきたのを感じてきました。GPT-4.5も同様です。『明確な進化を指摘することは簡単ではないが、確実にすべてが少しだけ良くなっていて、全体としては素晴らしい』という印象を持ちました。」
このような緩やかな品質向上は主として「教師なし学習(pretraining)」規模の拡大から生じるものであり、推論を必要とする数学やコード生成などのタスクではなく、EQに関連する対話・ユーモア・創造性の領域で優れた結果をもたらしているとのことです。

「AIアシスタントからAI親友への転換」
GPT-4.5を先行テストしたDan Shipper氏は、同モデルを「頭脳が飛躍的に進化するというよりは、性格・対話力・創造性が大幅にアップデートされたモデル」だと表現しました。
毎日の利用を通じて:
「非常に自然で美しく、読みやすい文章構造を持つ」
「温かみがあり、情緒的に優れた会話が可能」
「ロボット的でなく、自分の意見をしっかり持つ」
といった定性的特徴を特に高評価しています。
同時に「命令遵守能力が若干低下したり、創造性の高さゆえに幻覚が若干生じたりする」といったトレードオフへの注意点も挙げています。

「予想を超える実用的性能」
Spencer Schiff氏もGPT-4.5を徹底的に試用しており、同モデルは「Claudeなど競合モデルを凌いでおり、SVG画像処理や創造的な文章生成で明確に優位性を示している」と述べています。

https://x.com/SpencerKSchiff/status/1895205130922009006
Schiff氏が学校プロジェクト用に架空のビジネスのミッションステートメントを作成した際には、他のモデルよりも迅速かつ簡潔で魅力的な文章を提供し、非常に感銘を受けたといいます。また、自分の手描きスケッチをSVG化するよう求めるタスクでも、GPT-4.5の性能は群を抜いて良好だったということです。
一方で「時にはMarkdown記法を使いすぎる」といった細かな改善点はあるものの、総合的に現状最も使いやすいモデルとの評価を下しています。
「コード生成で特に優れるGPT-4.5」
「Devin」を開発しているCognition CEO Scott Wu氏は、自身が行った詳細なベンチマークテストの結果を公表し、高く評価しています:
「GPT-4.5は、エージェント型のコード生成ベンチマークにおいて、既存のOpenAI o1やGPT-4oを大幅に上回る結果を示しました。また興味深いことに、GPT-4.5はClaude 3.7 Sonnetと総合得点では似通っているものの、『アーキテクチャ設計やシステム間の相互作用』という具体的な領域では明確に突出しています。一方、純粋なプログラミングやコード編集面ではSonnetが優位です。AIがますます複雑なタスクを担っていく将来、異なる強みを持つ複数のモデルを組み込んだ『マルチモデルエージェント』が最も効果的になるはずです。」

このように、GPT-4.5は単なるコミュニケーション能力だけでなく、システムアーキテクチャ全体を俯瞰的に理解してコード生成を行う力にも特化していることが明らかになっています。

「他のすべてのモデルが失敗するケースでGPT-4.5が成功」
さらに、AIを活用した開発環境として注目されるツールCursorの開発チームは、GPT-4.5を導入した結果について次のように短くコメントしています:
「CursorでのGPT-4.5の導入を開始しましたが、他のすべてのモデルが失敗するような困難なケースへの対応で、驚くほど効果的なことが分かりました。」

Cursorチームのコメントからも、GPT-4.5が予想を超える難しい課題や、新規性の高い開発タスクにも効果を発揮するモデルであることが理解できます。
全体的評価—ベンチマークスコアを超えて
これらの評価を総合すると、今回のGPT-4.5は純粋な数値ベンチマークだけでは伝わらない多面的な価値を備えていることがわかります。
推論や数学的タスクでの「スコア主義」ではなく、人間的なコミュニケーション能力・感性・創造性といった、実世界での親しみやすさや利用性を向上する方向に明確に進化したモデルであると言えるでしょう。
まとめ:GPT-4.5とAI活用の今後
今回発表されたGPT-4.5は、教師なし学習によって得られる深く幅広い世界知識、自然で精度の高いコミュニケーション能力、そして感情理解(EQ)の向上を主な特徴としています。
一方で、推論などの複雑な多段階問題への特化はしておらず、OpenAI自身も今回のモデルを「あくまでも直感的な汎用モデルであり、専門的な推論モデルとは異なるアプローチをとるもの」と位置付けています。
価格面ではコストが高くなる可能性を公式でも示唆しており、本モデルは主に高度な文章作成やコミュニケーション、クリエイティブタスクに適すると考えられますが、多量の計算資源を必要とするため、今後APIでの長期的な提供が検討段階であるとも述べられています。
OpenAIは今回のリリースを通してユーザーや開発者からのフィードバック収集を開始し、その反応が今後の正式版モデル提供や改良の方針にも影響してくると予想されます。
GPT-4.5モデルが今後どのような具体的ユースケースを拓き、それらが実社会にどのような影響を与えるかに、引き続き注目が集まります。
サムアルトマンのコメント:
GPT-4.5が準備完了!
良い知らせ:今回のGPT-4.5は「思慮深い人と話している」と初めて感じさせるモデルです。実際、椅子に座ったまま、AIから「本当に良いアドバイス」を受け取って驚いた瞬間が何度もありました。
悪い知らせ:GPT-4.5は巨大で高コストなモデルです。当初はPlusとPro同時に提供を開始したかったのですが、予想を超えるユーザー増加でGPUが不足しています。来週には数万台のGPUを追加し、Plusユーザーにも提供を開始します(近いうちに数十万台のGPUも投入予定ですが、すぐに全て使われることでしょう)。
このような提供の仕方は本意ではありませんが、ユーザー急増に伴うGPU不足を完璧に予測するのは難しいのです。
念のためお伝えすると、GPT-4.5はベンチマークで圧倒的な結果を出す推論モデルではありません。今まで感じたことがない、全く異なるタイプの知性であり、そこに魔法のような魅力があります。
ぜひ皆さんに試してもらえるのが楽しみです!








