2025年4月15日(日本時間)、OpenAIは開発者向けAPIに新たなモデルファミリー「GPT-4.1」を発表しました。
フラッグシップモデルとなる「GPT-4.1」、小型で高速な「GPT-4.1 mini」、そしてOpenAIとして初となる「GPT-4.1 nano」の3つのモデルが含まれます。

これらのモデルは、既存のGPT-4oやGPT-4o miniと比較して、特にコーディング、指示追従、長文コンテキストの処理能力において大幅な改善が見られます。
全モデルが最大100万トークンのコンテキストウィンドウをサポートし、より長い文書やコードベースの処理、複雑な指示への対応力が向上しました。
ナレッジカットオフ(学習データの最終日時)は2024年6月に更新されており、APIを通じてのみ利用可能となります。また、今回の発表に伴い、従来プレビュー提供されていたGPT-4.5は今後3ヶ月で提供終了となることも告知されました。
OpenAIでGPT-4.1の開発をリードしたMichelle Pokrass氏は、これらのモデルについて「開発者の皆さんへの私たちのラブレター」と表現しています。
https://twitter.com/michpokrass/status/1911912069517218242
今日、GPT-4.1ファミリーをリリースできて、本当に興奮しています!これらのモデルは、まさに開発者の皆さんへの私たちのラブレターです。ベンチマークのスコアもかなり素晴らしいものになりましたが、それ以上に、実世界での利用シーンや実用性に重点を置いて開発しました。
GPT-4.1 ファミリーの概要 (3モデルの位置づけ)
今回発表されたGPT-4.1ファミリーは、APIを通じて開発者が利用することを前提に設計されたモデル群です。
ファミリーは以下の3モデルで構成されます。
GPT-4.1: ファミリーのフラッグシップモデル。最高の性能を提供。
GPT-4.1 mini: GPT-4.1より高速・低コストでありながら、多くのベンチマークでGPT-4oに匹敵、あるいは凌駕する性能を持つ中間モデル。
GPT-4.1 nano: OpenAI初の「ナノ」モデル。最速・最安価でありながら、100万トークンのコンテキストウィンドウを持ち、GPT-4o miniを超える性能を示す場面もある。分類やオートコンプリートなどの低レイテンシが求められるタスクに適する。

OpenAIが公開したインテリジェンス(知能)とレイテンシ(遅延)の関係を示すグラフからは、GPT-4.1ファミリーが従来のGPT-4o/4o miniの性能曲線を全体的に押し上げていることが見て取れます。特にnanoモデルは、低レイテンシ領域で新たな選択肢を提供します。

※ 重要:これらのモデルはすべてAPI専用であり、ChatGPTのインターフェースでは直接選択できません。
ただし、ChatGPTで使用されているGPT-4oモデルにも、今回の改善点(特に指示追従、コーディング、知能面)が段階的に反映されており、今後も反映が続けられるようです。
GPT-4.1ファミリーの性能
コーディング能力の大幅な進化
GPT-4.1ファミリーは、コーディング能力においてGPT-4oから単にコードを生成するだけでなく、リポジトリの探索、タスクの完遂、実行可能でテストをパスするコードの生成といった、より実践的なソフトウェアエンジニアリング能力が向上したようです。
具体的な改善点:
Diff形式(差分形式)でのコード編集指示への追従性向上
コードリポジトリ内の探索能力
ユニットテストの作成能力
よりコンパイル・実行しやすいコードの生成
不要な(余計な)コード編集の削減(内部評価でGPT-4oの9%から2%へ減少)
コーディングベンチマークにおける結果:
SWE-bench Verified (ソフトウェアエンジニアリングタスク)
実世界のGitHubイシューを解決する能力を測るSWE-bench Verifiedにおいて、GPT-4.1は55% のタスク完了率を達成しました。
GPT-4o (2024-11-20) の33%から22%ポイント(abs)の大幅な向上であり、GPT-4.5 (38.0%) やOpenAI o1 (high, 41.0%), o3-mini (high, 49%)をも上回るスコアです。

Aider's polyglot benchmark (多言語コード編集)
複数言語のコーディング課題をファイル編集形式で解くAiderベンチマークでは、特にDiff形式での性能向上が著しいです。
Diff形式: GPT-4.1は53% を達成。GPT-4o (18%) の約2.9倍のスコア。
Whole形式 (ファイル全体書き換え): GPT-4.1は52% を達成。GPT-4o (31%) から向上。
Diff形式での信頼性向上により、開発者は変更部分のみを出力させることで、コストとレイテンシを削減できます。なお、ファイル全体を書き換えるユースケースのために、GPT-4.1の最大出力トークン数は32,768トークンに増加されています (GPT-4oは16,384)。

フロントエンドコーディングの改善
Webアプリケーションなどのフロントエンド開発能力も向上しています。OpenAIによる人間評価者の比較では、同じプロンプトに対してGPT-4.1が生成したWebサイトが、GPT-4oのものよりも80%のケースで好まれたと報告されています。
例として、ヒンディー語と英語の単語帳アプリを生成するプロンプトでは、GPT-4oが基本的な機能のみを実装したのに対し、GPT-4.1はより洗練されたデザインと、指示された3Dアニメーションを含む完全な機能を備えたアプリを生成しました。

指示追従性能の向上 (内部評価, MultiChallenge, IFEval)
GPT-4.1ファミリーは、与えられた指示に対してより正確に従う能力も大幅に強化されました。これは、フォーマット指定、禁止事項、手順の指定など、開発者がAPIを利用する上で重要となる側面です。
OpenAIは、開発者からのフィードバックに基づき、以下のカテゴリを含む内部評価セットを開発し、性能向上を確認しています。
フォーマット追従: XML, YAML, Markdownなどの指定されたカスタムフォーマットでの応答。
否定指示: 行うべきでない行動の指定(例:「サポートに連絡するようにユーザーに依頼しないでください」)。
順序指示: 指定された順序で実行すべき一連の指示(例:「まずユーザーの名前を尋ね、次にメールアドレスを尋ねてください」)。
内容要件: 特定の情報を含める指示(例:「栄養計画を書くときは、常にタンパク質の量を含めてください」)。
ランキング: 特定の順序での出力(例:「人口順で応答を並べ替えてください」)。
過信抑制: 不明な情報や範囲外の要求に対し「わからない」と回答する指示。
特に、これらのカテゴリにおける困難な(hard)プロンプトにおいて、GPT-4.1はGPT-4oと比較して大幅な改善を示しています(内部評価スコア: 49% vs 29%)。

マルチターン対話での指示維持
複数ターンにわたる対話においても、過去の発言内容や指示を一貫して記憶し、追従する能力が向上しています。Scale AIが提供するMultiChallengeベンチマークでは、GPT-4.1は38.3% のスコアを記録し、GPT-4o (27.8%) から10.5%ポイント(abs)向上しました。

検証可能な指示への準拠 (IFEval)
応答の長さ、特定の単語やフォーマットの回避など、客観的に検証可能な指示への準拠能力を測るIFEvalベンチマークにおいても、GPT-4.1は87.4% と、GPT-4o (81.0%) から改善を見せています。

これらの指示追従性の向上により、既存アプリケーションの信頼性が高まるだけでなく、これまで難しかった新しい応用も可能になると考えられます。
ただし、OpenAIはGPT-4.1がより「指示通り」に応答する傾向があるため、プロンプトでは明確かつ具体的に指示することが推奨されるとしています。
APIでの利用方法と提供形態 (ChatGPTへの反映, ファインチューニング)
今回発表されたGPT-4.1ファミリー(GPT-4.1, GPT-4.1 mini, GPT-4.1 nano)は、開発者向けのAPIを通じてのみ提供されます。ChatGPTのWebインターフェースやモバイルアプリで、ユーザーが直接これらのモデルを選択することはできません。
以下の方法で利用を開始できます。
これらに加え、発表直後から主要な開発支援ツールやプラットフォームでもGPT-4.1の利用が可能になっています。
GitHub Copilot: 全プラン(無料プラン含む)でパブリックプレビューとして利用可能。VS Codeやgithub.comのチャットで「GPT-4.1 (Preview)」を選択できます(Copilot Enterprise管理者はポリシー設定が必要な場合があります)。
GitHub Models: Playgroundなどで他のモデルと比較しながら試用できます。
Cursor: 全ユーザーが利用可能。当面は無料提供されますが、現時点ではデフォルトモデルとしては推奨されていません。
Windsurf: 発表後7日間、無料(レート制限あり)でGPT-4.1を利用できるキャンペーンを実施しています。
なお、ChatGPT Plusなどのユーザーが現在利用しているGPT-4oモデルには、今回のGPT-4.1ファミリーで実現された改善点(特に指示追従、コーディング、知能面)が段階的に組み込まれていく予定とのことです。
また、特定のタスクに合わせてモデルの性能をさらに高めたい開発者向けに、ファインチューニングも提供されます。
GPT-4.1 / GPT-4.1 mini: 発表と同時にファインチューニングに対応済み。
GPT-4.1 nano: 近日中にファインチューニング対応予定。
価格体系
OpenAIは、GPT-4.1ファミリーの発表に合わせて、より利用しやすい新しい価格体系を導入しました。推論システムの効率改善により、性能が向上したにもかかわらず、従来モデルより低価格で提供されます。
各モデルの料金(100万トークンあたり)は以下の通りです。

*Blended Pricingは、一般的な入力/出力およびキャッシュ利用率に基づいた参考価格
GPT-4.1のコスト削減: GPT-4.1は、一般的な利用シナリオにおいて、GPT-4oと比較して約26%安価になります (Blended Pricing基準)。
GPT-4.1 nanoの低価格: nanoモデルはOpenAI史上最も安価なモデルとなり、Blended Pricingで$0.12/1Mトークンという価格設定です。
GPT-4.5 Previewの提供終了について
今回の発表に伴い、OpenAIはこれまでAPIで研究プレビュー版として提供されていた「GPT-4.5 Preview」モデルの提供を終了することを告知しました。
提供終了日: 2025年7月14日
終了理由:
GPT-4.1ファミリーが、多くの主要な機能においてGPT-4.5と同等またはそれ以上の性能を、より低いコストとレイテンシで提供できるようになったため。
需要の高いGPUリソースを、より広く利用されるGPT-4.1ファミリーや将来の研究開発に割り当てるため。
OpenAIは、GPT-4.5のプレビュー提供を通じて開発者から得られたフィードバック(特に創造性、ライティング品質、ユーモア、ニュアンスなど)は、今後のAPIモデル開発に活かしていくとしています。
まとめ
OpenAIが発表したGPT-4.1ファミリー(GPT-4.1, mini, nano)は、APIを利用する開発者にとって、実用性と性能のバランスを大きく前進させるアップデートと言えます。特に、コーディング、指示追従、そして最大100万トークンに拡張された長文コンテキスト処理における性能向上は目覚ましく、多くのベンチマークで既存モデルを凌駕する結果を示しています。
GPT-4.1は新たなフラッグシップとして最高性能を提供し、GPT-4.1 miniは速度と性能のバランスに優れ、Visionタスクでも高い能力を発揮します。そして、初のGPT-4.1 nanoは、低コスト・低レイテンシが求められるタスクに最適な選択肢となり、100万トークンコンテキストという特徴も備えています。
より手頃になった価格体系、強化されたキャッシュ割引、長文コンテキストへの追加料金なしといった点は、開発者がこれらの高性能モデルをより広範なアプリケーションに導入することを後押しするでしょう。一方で、GPT-4.5 Previewの提供終了は、利用していた開発者にとっては移行が必要となります。
今回の発表は、AIモデル開発における実用性重視の流れを明確に示すものであり、特に複雑なタスクを自動化するエージェント開発など、新たな応用分野の可能性を広げるものと期待されます。開発者は、OpenAIが提供するプロンプティングガイドやPlaygroundを活用し、これらの新モデルの能力を最大限に引き出すことが求められるでしょう。







