2026年3月5日、OpenAIは同社のフラグシップAIモデルの最新版GPT-5.4を正式にリリースしました。推論・コーディング・エージェントワークフローを単一モデルに統合した本モデルは、AIがPCを直接操作する「コンピュータ操作機能」や、応答途中でユーザーが方向修正できる「Mid-Response Steering」など、従来のGPTシリーズにはなかった革新的機能を搭載しています。
本記事では、GPT-5.4の新機能の詳細、GDPvalやSWE-Benchなど主要ベンチマークでの性能比較、API料金体系、そしてAnthropicのClaude Opus 4.6との違いまで、導入を検討する方が知っておくべき情報を網羅的に解説します。開発者・ビジネスパーソン・AI活用を検討中の方にとって、最適なモデル選定の判断材料となる内容です。
GPT-5.4とは?OpenAI最新フラグシップモデルの概要
GPT-5.4は、OpenAIが2026年3月5日にリリースした最新のフロンティアAIモデルです。前世代のGPT-5.2から大幅に進化し、「プロフェッショナルワークのための最も高性能かつ効率的なモデル」と位置付けられています。最大の特徴は、これまで個別の専用モデルとして提供されていた推論機能・コーディング機能・エージェントワークフロー機能を、1つの統合モデルに集約した点です。
従来はコーディング作業にはGPT-5.3-Codexという専用モデルが必要でしたが、GPT-5.4ではそれらの機能を包括しつつ、さらに高いパフォーマンスを発揮します。また、AIがPCのスクリーンショットを読み取り、マウスやキーボードを操作するコンピュータ操作機能がメインラインモデルとしては初めて搭載されました。
利用可能なプラットフォームも幅広く、ChatGPT(Plus/Team/Pro/Business/Enterprise/Edu)、API、GitHub Copilot、Microsoft Foundry(Azure)など多様な環境で展開されています。知識カットオフは2025年8月31日となっており、それ以降の最新情報についてはWeb検索機能との併用が推奨されています。
| 項目 | 内容 |
|---|---|
| リリース日 | 2026年3月5日 |
| 開発元 | OpenAI |
| モデルの位置付け | フラグシップ(最上位)モデル |
| 最大コンテキスト | 約105万トークン(1MB) |
| 知識カットオフ | 2025年8月31日 |
| 前モデル | GPT-5.2(2025年12月) |
GPT-5.4の3つのバリアント(標準版・Thinking・Pro)
GPT-5.4は、ユースケースや必要な精度に応じて3つのバリアント(モデルの派生版)が用意されています。それぞれ処理速度・精度・コストのバランスが異なるため、用途に合わせた選択が重要です。
GPT-5.4(標準版)
APIおよびChatGPTで利用可能な基本バリアントです。日常的な文書作成、コーディング支援、エージェントワークフローなど幅広い用途に対応し、高速処理と標準的な精度のバランスが取れたモデルです。APIでは推論レベルを5段階(none/low/medium/high/xhigh)で設定でき、タスクの複雑さに応じて処理の深さをコントロールできます。推論レベルを下げれば応答速度が上がりコストも抑えられるため、単純なテキスト生成では「none」や「low」、複雑な分析では「high」や「xhigh」といった使い分けが可能です。
Codexでは「/fastモード」が利用でき、最大1.5倍のトークン生成速度を実現しています。大量のコード生成やバッチ処理を行う開発者にとっては、このスピード向上は大きなメリットとなるでしょう。
GPT-5.4 Thinking
ChatGPT上で利用可能な推論強化モードです。Plusプラン以上のユーザーがモデルピッカーから選択できます。標準版との最大の違いは、複雑なクエリに対して事前に作業計画を提示し、ユーザーが応答の途中で方向を修正できる「Mid-Response Steering」機能を備えている点です。
たとえば「Pythonで機械学習のパイプラインを構築して」と依頼した場合、GPT-5.4 Thinkingはまず全体の設計プランを提示します。ユーザーは「データ前処理の部分をもっと詳しく」「scikit-learnではなくPyTorchを使って」などと途中で指示を追加・変更でき、不要な再生成を避けられます。従来のように最初からプロンプトを書き直す必要がないため、特に長く複雑なタスクでの作業効率が飛躍的に向上します。
GPT-5.4 Pro
追加の計算リソースを投入し、最高精度を実現するプレミアムバリアントです。ChatGPTではPro/Business/Enterprise/Eduプランで利用可能で、APIではgpt-5.4-proをモデルIDに指定して使用します。ARC-AGI-2ベンチマークでは83.3%を達成し、標準版の73.3%を大きく上回っています。
BrowseComp(Web検索精度ベンチマーク)でもPro版は89.3%を記録し、標準版の82.7%をさらに超えるスコアを出しています。科学論文の分析、法務文書の精査、複雑な戦略立案など、正確性が最優先されるタスクにおいてPro版は最適な選択肢となります。ただしAPI料金は標準版の12倍となるため、コストパフォーマンスを考慮した利用判断が必要です。
| バリアント | 主な用途 | 特徴 | 利用可能プラン |
|---|---|---|---|
| GPT-5.4(標準版) | 汎用・日常タスク | 高速・コスト効率重視 | API / ChatGPT全プラン |
| GPT-5.4 Thinking | 複雑な分析・計画 | Mid-Response Steering対応 | ChatGPT Plus以上 |
| GPT-5.4 Pro | 最高精度が必要な業務 | 追加計算リソース投入 | API / ChatGPT Pro以上 |
GPT-5.4の注目すべき4つの新機能
GPT-5.4では、従来のGPTシリーズにはなかった複数の革新的機能が追加されました。これらの機能により、AIの活用範囲が大幅に拡大しています。特にコンピュータ操作機能とTool Search機能は、エージェントワークフロー(AIが自律的にツールを組み合わせてタスクを遂行する仕組み)の実用性を飛躍的に高めるものです。
ネイティブ・コンピュータ操作
GPT-5.4は、メインラインモデルとして初めてコンピュータ操作機能をネイティブに搭載しました。具体的には、AIがPCのスクリーンショットを読み取り、画面上の要素を理解した上で、マウスクリック・キーボード入力・ドラッグ操作などを自律的に実行できます。これはPlaywrightなどのブラウザ自動化ライブラリを介したコード生成を通じて実現されています。
OSWorld-Verified(PC操作の正確性を測るベンチマーク)では75.0%を記録し、人間のパフォーマンス(72.4%)を超越した初のモデルとなりました。前モデルGPT-5.2の47.3%から27.7ポイントもの大幅改善です。この機能により、Webブラウジング、フォーム入力、スプレッドシート操作、アプリケーション間のデータ転記など、従来は人手で行っていたPC操作をAIに委任できるようになります。
ただし、現時点ではCodexおよびAPI経由での利用に限定されており、ChatGPTの通常インターフェースからは直接利用できません。また、金融取引や機密データの操作など、高リスクな操作にはユーザー確認プロンプトが表示される安全設計が施されています。
Mid-Response Steering(途中応答制御)
GPT-5.4 Thinkingに搭載された新機能で、AIの応答生成中にユーザーが方向を修正できる画期的な仕組みです。従来のAIモデルでは、一度プロンプトを送信すると応答が完了するまで待つしかなく、方向が間違っていた場合は最初からやり直す必要がありました。
Mid-Response Steeringでは、GPT-5.4 Thinkingがまず作業計画(プラン)を提示し、各ステップの実行前にユーザーが介入できるポイントを設けます。「ここの部分はもっと詳しく」「この方向ではなくこちらに変えて」といった途中修正が可能なため、長文の分析レポートや複雑なコード生成において、無駄な再生成を大幅に削減できます。OpenAIによると、この機能により長いタスクの作業時間を最大40%短縮できるとされています。
Tool Search機能
エージェントワークフローの効率を劇的に改善する新機能です。従来のAIエージェントでは、利用可能な全てのツール定義をプロンプトにプリロードする必要があり、ツール数が増えるほどトークン消費量が膨大になるという課題がありました。
Tool Search機能では、GPT-5.4が必要なツールをオンデマンドで検索・取得する方式に変わります。数万個のツール定義を含むMCP(Model Context Protocol)サーバーを利用する場合でも、実際に使用するツールの定義だけを動的に読み込むため、トークン使用量を最大47%削減できます。これはエージェントワークフローの運用コストを大幅に下げるだけでなく、コンテキストウィンドウの有効活用にもつながります。
開発者にとっては、大規模なツールセットを持つAIエージェントの構築がより現実的になり、業務自動化の幅が一気に広がる可能性を秘めた機能といえるでしょう。
105万トークンのコンテキストウィンドウ
GPT-5.4はOpenAI史上最大となる約105万トークン(1MB)のコンテキストウィンドウをサポートしています。これは日本語に換算すると約40〜50万文字に相当し、書籍数冊分のテキストを一度に処理できる規模です。大規模なコードベースの全体分析、長大な法務文書の精査、複数のドキュメントを横断的に比較する作業などが、コンテキストの制約なく実行可能になります。
ただし注意点として、標準の272Kトークンを超えるリクエストでは入力料金が2倍、出力料金が1.5倍に割増される仕様です。大容量コンテキストが必要なケースでは、コストと利便性のトレードオフを考慮した設計が求められます。現時点ではCodexでの試験的サポートとなっており、今後ChatGPTの通常利用にも拡大される予定です。
ベンチマーク性能を徹底比較
GPT-5.4のリリースに際し、OpenAIは複数のベンチマークでの性能評価結果を公開しています。ここでは前モデルGPT-5.2との比較と、競合であるAnthropicのClaude Opus 4.6(2026年2月5日リリース)との比較を詳しく見ていきます。
GPT-5.2からの進化ポイント
GPT-5.4は前モデルGPT-5.2からほぼ全てのベンチマークで大幅な性能向上を達成しています。特に顕著なのがGDPval(44の職種にわたるプロフェッショナルな知識労働を測定するベンチマーク)で、70.9%から83.0%へと12.1ポイント向上しました。これは「専門家の80%以上の業務において、AIが同等以上のパフォーマンスを発揮できる」ことを意味しています。
PC操作性能を測るOSWorld-Verifiedでは47.3%から75.0%へと27.7ポイントの大幅改善を実現。BrowseComp(Web検索精度)でも65.8%から82.7%へ16.9ポイント向上しています。クレーム(主張)の誤り率は33%減少し、全体のエラー率も18%低下しました。
| ベンチマーク | GPT-5.2 | GPT-5.4 | 改善幅 |
|---|---|---|---|
| GDPval(専門知識労働) | 70.9% | 83.0% | +12.1pt |
| OSWorld-Verified(PC操作) | 47.3% | 75.0% | +27.7pt |
| BrowseComp(Web検索精度) | 65.8% | 82.7% | +16.9pt |
| SWE-Bench Pro(コーディング) | 56.8% | 57.7% | +0.9pt |
| Terminal-Bench 2.0 | - | 75.1% | 新規 |
| クレーム誤り率 | - | - | 33%減少 |
Claude Opus 4.6との比較
GPT-5.4の最大の競合となるのが、Anthropicが2026年2月5日にリリースしたClaude Opus 4.6です。両モデルの得意分野は異なっており、一概にどちらが優れているとは言い切れない状況です。
GPT-5.4が優位なのはPC操作(OSWorld: 75.0% vs 72.7%)、Web検索精度(BrowseComp: 82.7% vs 非公開)、そして難易度の高いコーディングベンチマークSWE-Bench Pro(57.7% vs 推定45〜46%)です。一方、Claude Opus 4.6が優位なのは標準的なコーディングベンチマークSWE-Bench(80.8% vs 77.2%)で、日常的なソフトウェア開発タスクでのコード品質ではClaudeがリードしています。
総合的に見ると、GPT-5.4はオールラウンドな汎用性で強みを発揮し、Claude Opus 4.6はコード中心のエージェント開発(いわゆるagentic coding)に特化した強みを持ちます。プロジェクトの性質に応じて使い分けるのが賢明な選択といえるでしょう。
| ベンチマーク | GPT-5.4 | Claude Opus 4.6 | 優位 |
|---|---|---|---|
| GDPval(専門知識労働) | 83.0% | 非公開 | - |
| OSWorld(PC操作) | 75.0% | 72.7% | GPT-5.4 |
| SWE-Bench(コーディング) | 77.2% | 80.8% | Claude Opus 4.6 |
| SWE-Bench Pro(高難度コーディング) | 57.7% | 推定45〜46% | GPT-5.4 |
| BrowseComp(Web検索精度) | 82.7% | 非公開 | - |
| ARC-AGI-2(汎用推論) | 83.3%(Pro) | 非公開 | - |
AIソリューションの導入をご検討ですか?
株式会社Awakでは、お客様の課題に合わせたAI導入支援・システム開発を行っています。まずはお気軽にご相談ください。
料金体系とプラン別アクセス
GPT-5.4の料金体系は、ChatGPTのサブスクリプションプランとAPI利用の2軸で構成されています。前モデルGPT-5.2と比較するとAPI料金は約1.5倍に上昇していますが、トークン効率の改善により総使用量の削減が期待できるとOpenAIは説明しています。
ChatGPTプラン別の利用可能範囲
ChatGPTでのGPT-5.4利用は、契約しているサブスクリプションプランによってアクセスできるバリアントが異なります。無料プランでもGPT-5.4は自動切替で部分的に利用可能ですが、フルアクセスにはPlus以上のプランが必要です。
| プラン | 月額料金 | GPT-5.4標準 | GPT-5.4 Thinking | GPT-5.4 Pro |
|---|---|---|---|---|
| Free | 無料 | 自動切替で部分利用 | - | - |
| Plus | $20/月 | 利用可 | 利用可 | - |
| Team | $25/月/人 | 利用可 | 利用可 | - |
| Business | $25/月/人 | 利用可 | 利用可 | 利用可 |
| Pro | $200/月 | 利用可 | 利用可 | 利用可 |
| Enterprise/Edu | 要問合せ | 利用可 | 利用可 | 利用可 |
API料金の詳細
API利用時の料金は、モデルのバリアントと入出力トークン数に基づいて計算されます。標準版のGPT-5.4は入力$2.50/100万トークン、出力$15.00/100万トークンとなっています。キャッシュされた入力トークンは$0.25/100万トークンと大幅に割引されるため、繰り返し同じシステムプロンプトを使用する場合はコスト最適化が可能です。
Pro版は入力$30.00/100万トークン、出力$180.00/100万トークンと高額ですが、最高精度が求められるエンタープライズ用途向けです。また、拡張コンテキスト(272Kトークン超過時)は入力料金が2倍、出力料金が1.5倍に割増される点に注意が必要です。データレジデンシー(地域限定処理)オプションを利用する場合は、さらに10%の追加料金がかかります。
| モデル | 入力(/100万トークン) | 出力(/100万トークン) | キャッシュ入力 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | $0.25 |
| GPT-5.4 Pro | $30.00 | $180.00 | 要確認 |
| 拡張コンテキスト(272K超) | $5.00(2倍) | $22.50(1.5倍) | - |
実務での活用シーンとユースケース
GPT-5.4の新機能は、幅広い業界・職種での実務活用を可能にします。特にコンピュータ操作機能とエージェントワークフローの統合により、これまでAIでは難しかった「システム間をまたぐ一連の操作」を自動化できるようになりました。
エンタープライズ文書処理では、メタデータ抽出精度がヘルスケア分野で+9ポイント、法務で+11ポイント、エネルギー分野では+16ポイント改善されています。大量の契約書や報告書から必要な情報を自動抽出し、データベースに登録するワークフローが現実的になりました。
ソフトウェア開発においては、105万トークンのコンテキストウィンドウにより大規模リポジトリ全体を一度に分析可能です。Terminal-Bench 2.0で75.1%を達成しており、コマンドライン操作を含む複合的な開発タスクにも対応します。GitHub CopilotでもGPT-5.4が利用可能になり、IDE上でのコーディング支援がさらに強化されています。
エージェントワークフローでは、Web情報の収集→フォーム入力→社内システムへの登録といった一連の操作をAIが自律的に実行します。OpenAIの評価によると、スプレッドシート作成タスクで87.3%の精度を実現しています。営業事務やデータ入力など、定型的だが手間のかかる業務の自動化に大きなポテンシャルを持っています。
- マーケティング:競合調査→分析レポート作成→社内共有までの自動化
- カスタマーサポート:問い合わせ内容の分析→ナレッジベース検索→回答ドラフト作成
- 人事・採用:応募書類のスクリーニング→評価シート作成→面接日程調整
- 経理・財務:請求書データの読み取り→仕訳入力→月次レポート生成
GPT-5.4の安全性評価とリスク対策
GPT-5.4は高い能力を持つ一方で、OpenAIは安全性にも注力しています。OpenAIのPreparedness Framework(準備体制フレームワーク)に基づく評価では、サイバーセキュリティ領域で「High(高)」リスク評価が付与されました。これはモデルの能力が高いゆえに悪用リスクも高まることを意味しており、それに対応する安全策が講じられています。
具体的には、コンピュータ操作機能における高リスク操作(金融取引、機密データアクセスなど)ではユーザー確認プロンプトが表示される仕組みが実装されています。また、拡張サイバーセーフティスタックが導入され、生物・化学・核領域のリスク評価も実施済みです。
企業でGPT-5.4を導入する際は、これらのリスク評価を踏まえた上で、自社のセキュリティポリシーとの整合性を確認することが推奨されます。Enterprise/Eduプランでは管理者が早期アクセスの有効化を個別に設定でき、段階的な導入が可能です。
GPT-5.4の始め方・使い方ガイド
GPT-5.4は複数のプラットフォームから利用開始できます。ここでは主要な利用方法を紹介します。
ChatGPTでの利用:ChatGPTにログイン後、チャット画面上部のモデルピッカーから「GPT-5.4 Thinking」を選択するだけで利用開始できます。Plusプラン(月額$20)以上の契約が必要です。無料プランでも自動切替によりGPT-5.4が部分的に使用されることがありますが、モデルの手動選択はできません。
API経由での利用:OpenAI APIのモデルIDにgpt-5.4(標準版)またはgpt-5.4-pro(Pro版)を指定します。推論レベルの調整はreasoning_effortパラメータで設定でき、none〜xhighの5段階から選択可能です。
GitHub Copilot:Pro/Pro+およびBusiness/Enterpriseプランで一般提供が開始されています。VSCodeやJetBrains IDEなど主要なエディタのCopilot拡張機能を通じてGPT-5.4を利用できます。
Microsoft Foundry(Azure):Azureエコシステム内でセキュアな本番運用に対応しています。データの所在地域を指定するデータレジデンシーオプションも利用可能で、日本のデータセンターでの処理を希望する企業にも対応します。
よくある質問
Q: GPT-5.4は無料で使えますか?
A: ChatGPTの無料プランでも自動切替により部分的にGPT-5.4が使用されることがあります。ただし、GPT-5.4 Thinkingの手動選択にはPlusプラン(月額$20)以上が必要です。GPT-5.4 Proの利用にはPro/Business/Enterpriseプランが必要です。
Q: GPT-5.4とGPT-5.2の最大の違いは何ですか?
A: 最大の違いはコンピュータ操作機能の搭載です。GPT-5.4はAIがPC画面を認識し自律的に操作できる初のメインラインモデルです。加えて、Mid-Response Steering、Tool Search、105万トークンのコンテキストウィンドウなど複数の新機能が追加されています。ベンチマークでもGDPvalが70.9%→83.0%、OSWorldが47.3%→75.0%と大幅に向上しています。
Q: GPT-5.4とClaude Opus 4.6はどちらを選ぶべきですか?
A: 用途によります。PC操作やエージェントワークフロー、汎用的な知識労働ではGPT-5.4が優位です。一方、日常的なソフトウェア開発やコード品質を重視するagentic codingではClaude Opus 4.6がSWE-Benchで高スコアを記録しています。両方を試して自社のユースケースに合う方を選ぶことをおすすめします。
Q: GPT-5.4のAPIコストを抑える方法はありますか?
A: いくつかの方法があります。まず、推論レベル(reasoning_effort)をタスクに応じて下げることでコスト削減できます。次に、キャッシュされた入力トークンは$0.25/100万トークンと通常の10分の1の料金なので、共通のシステムプロンプトを活用するとコスト効率が上がります。また、272Kトークン以内に収まるようプロンプトを設計すれば、拡張コンテキストの割増料金を回避できます。
Q: GPT-5.4の知識カットオフはいつですか?
A: 2025年8月31日です。それ以降の情報については、ChatGPTのWeb検索機能やBrowsing機能との併用が推奨されています。なお、BrowseCompベンチマークでは82.7%の精度を達成しており、Web検索を組み合わせた情報取得能力も高い水準にあります。
まとめ
GPT-5.4は、推論・コーディング・エージェントワークフローを単一モデルに統合したOpenAIの最新フラグシップモデルです。ネイティブ・コンピュータ操作、Mid-Response Steering、Tool Search、105万トークンコンテキストという4つの新機能により、AIの活用範囲が大きく広がりました。
GDPvalで83.0%(+12.1pt)、OSWorldで75.0%(人間超え)という高いベンチマークスコアは、プロフェッショナル業務でのAI活用が新たなフェーズに入ったことを示しています。料金面では標準版API $2.50/100万入力トークンと手頃な設定で、キャッシュ活用によるコスト最適化も可能です。
一方で、コーディング特化のタスクではClaude Opus 4.6が優位な場面もあり、一概にGPT-5.4が全領域で最強というわけではありません。自社の主要ユースケースを明確にした上で、最適なモデルを選定することが重要です。AI導入や業務自動化にGPT-5.4の活用を検討されている方は、まずChatGPTのPlusプランやAPI経由での試用から始めてみることをおすすめします。
