OpenAI/Codex 2026進化まとめ

2026年6月24日

「OpenAIのCodexって、ChatGPTとは何が違うの？2026年でどこまで進化したの？」——そう感じていませんか。

Codexはこの1年で「コードを補完するツール」から「作業を任せるAIエンジニア」へと姿を変えました。数か月前の知識ではもう追いつけません。

この記事では、チャットとの違い・2026年の機能追加の流れ・GPT-5.5のベンチマーク・サム・アルトマン氏の発言・使えるMCP/CLI連携・今後の展望を、専門用語をかみ砕いて総まとめします。

読み終える頃には、「OpenAIのコーディング支援が今どこまで来ているか」がスッと頭に入っているはずです。

そもそもOpenAI Codexとは

Codex（コデックス）は、OpenAIの「エージェント型」コーディングツールです。単にコードを提案するだけでなく、指示を受けてコードを書き・テストし・修正し・プルリクエスト（変更提案）を出すところまで、作業そのものを代行します。ルーツは2021年のCodex協業にさかのぼり、2026年には本格的な“仮想チームメイト”へと進化しました。

利用できる場所は幅広く、ターミナルで動く「Codex CLI」、VS Codeなどの「IDE拡張」、ChatGPTアプリ内、そしてクラウド版がそろっています。さらにGitHub上で@codexとメンションすれば、IssueやPRからそのままタスクを起動できます。各タスクは自分専用のクラウドサンドボックス（隔離環境）で実行されます。

チャットとの決定的な違い：型を「定義」して任せる

通常のChatGPTの会話は、1往復ごとに人が指示する「その場の一問一答」です。一方でCodexが一線を画すのは、あらかじめルールや手順をファイルで定義し、複数ステップの作業を自律的に完了させる点にあります。

AGENTS.md（エージェンツ・ドット・エムディー）: リポジトリに置く“常時参照される指示書”です。守ってほしい規約・前提・ビルド手順・テスト方法などを書いておくと、Codexは作業のたびに参照します。毎回ゼロから説明し直す必要がありません。
Skills（スキル）: 特定タスクの進め方をチームの標準に合わせて定義する仕組みです。コード理解・試作・ドキュメント作成など「PRを製品に変える作業」まで、型に沿って実行させられます。macOSのRecord & Replayでは、実演した手順をそのまま再利用可能なスキルに変換できます。

つまりChatGPTが「対話の相手」であるのに対し、Codexは「前提と手順を定義したうえで、複数のリクエストを並行して任せられる実行者」になります。アルトマン氏自身、これを「本当の意味でのソフトウェア開発タスクの委任」と表現しています。

2026年の機能追加タイムライン

2026年前半のCodexは、まさに毎週アップデートが続く状態でした。主な節目を時系列で並べます。

4月: 長時間タスク向けの/goal（ゴール）ワークフロー、フロントエンド作業を確認できるアプリ内ブラウザ検証、危険な操作の前に自動でレビューする仕組み、--full-autoに代わる明示的な権限プロファイルを導入。
4月23日: 新基盤モデルGPT-5.5を公開。GPT-4.5以来の完全再学習モデルで、エージェント前提の訓練を受け、複雑な実装作業の推奨モデルに。
5月中旬: Codex特化版のGPT-5.3-Codexが登場（後述ベンチマーク）。
5月18〜21日: Codex CLIを0.131→0.133へ連続更新、アプリも26.519へ。Goal Modeが正式機能（GA）化し、アプリ・IDE・CLIで利用可能に。プラグイン用のマーケットプレイスCLIコマンドやapp-serverのstdioモードも追加。
6月: セッションを保護できる/archive（TUI・CLI）、ターミナル表示でリンクをクリック可能に保つ改善（OSC 8）など、細かな使い勝手を強化。

加えて、マネージャーが複数の並列ワーカーを束ねるサブエージェント機能が正式化。Issueのトリアージやアラート監視・CI/CDといった定型業務を指示なしで拾って進める「Automations（自動処理）」も加わりました。

注目機能：クラウド並列とサブエージェント

2026年のCodexを象徴するのがクラウドでの並列実行です。Codexクラウドは、自前のクラウド環境とワークツリーを使ってタスクをバックグラウンドで（しかも並行して）処理します。OpenAIは「複数プロジェクトをまたいでエージェントが並列で動き、数週間分の作業を数日で終える」とうたいます。

仕組みの中心がサブエージェント＋マネージャー構成です。マネージャー役のCodexが、それぞれ独立したコンテキストを持つ複数のワーカーを調整し、大きな作業を分担して進めます。人は逐一指示を出すのではなく、ゴールを与えて結果をレビューする側に回ります。

ベンチマーク：GPT-5.5はどれだけ強いか

現行Codexの主力GPT-5.5（2026年4月23日公開）は、OpenAI最強のエージェント型コーディングモデルと位置づけられます。代表的な評価は次の通りです。

ベンチマーク	スコア（OpenAI公表系）	内容
SWE-bench Verified	約88.7%	実際のGitHub課題を解く定番指標
Terminal-Bench 2.0	82.7%	ターミナル操作の最先端（SOTA）
SWE-bench Pro（難問版）	58.6%	より難易度の高い実務課題

なお、Codex特化版のGPT-5.3-CodexはSWE-bench Verifiedで85.0%とされます。ただし注意点として、SWE-bench Verifiedの数字はベンダーや評価環境（スキャフォルド）によって差が出ます。中立的なリーダーボードでは同モデルが80%台前半に位置づけられるケースもあり、各社の「自社公表値」を横並びで比べる際は前提の違いに留意が必要です。

サム・アルトマン氏の発言

OpenAIのCEOサム・アルトマン（Sam Altman）氏は、コーディングAIの現在地を象徴する発言を重ねています。

「AIは人間より速くコードを書く。だがそれはソフトウェアエンジニアリングの終わりではなく“変容”だ」
サティア・ナデラ氏との対談で、コーディングエージェントを「私が見てきた中でプログラミング最大級の変化の一つ」と表現。
AIが担うコーディングの割合は「多くの企業で、おそらくもう50%を超えている」。
開発者の時間配分は、かつて「コード記述8割・設計2割」だったのが、2026年には「設計・レビュー7割・コード記述3割」へと逆転しつつある、という見立て。

もっとも、こうした“コーディングの主役交代”を思わせる発言には、現場の開発者から反発もあります。「仕事を軽んじている」と受け取られたり、品質・セキュリティ面の懸念を指摘する声も根強くあります。額面どおりに受け取るより、「業界トップがこの方向を本気で見ている」一方で「現場の評価は割れている」という両面で読むのが妥当でしょう。

MCP・CLI連携で何ができるようになるか

Codexの強さは、外部ツールとつながる連携にもあります。その共通規格がMCP（Model Context Protocol）です。元はAnthropicが公開したオープン標準ですが、いまやOpenAIのCodexを含め広く採用され、AIと外部ツール・データをつなぐ“共通コネクタ”になっています。

CodexではCLIとIDE拡張が設定（~/.codex/config.toml）を共有するため、一度MCPを設定すれば両方で使えます。codex mcp add コマンドでサーバーを追加でき、ローカル接続のStdioと、クラウド接続のStreamable HTTPの2方式に対応します。MCP連携を入れると、Codexは次のようなことができるようになります。

GitHub: Issue・PR・リポジトリ情報を会話から直接読み取り、修正やPR作成につなげる。
Sentry: エラートレースやスタックトレース、過去の不具合履歴を参照して原因調査を進める。
ブラウザ・Figma・各種ドキュメント: 外部ツールやデザイン、サードパーティのドキュメントを参照して作業する。
Notionなどのクラウドサービス: ホスト型MCP経由で社内情報やタスクに接続する。

これらはプラグインとして配布され、マーケットプレイスCLIコマンドから追加・管理できます。「知っているだけのAI」から「あなたの道具箱を実際に操作するAI」へ——MCPがその橋渡しを担います。

今後の展望

2026年のCodexが示す方向性は、「1つのAIに頼む」から「クラウド上のエージェント群を指揮する」への移行です。サブエージェント＋マネージャー、クラウド並列実行、指示なしで動くAutomations——いずれも「人が常に張り付かなくても回る開発」を後押しします。

アルトマン氏は、今後のモデルが推論・マルチモーダル・長時間タスクで「明確に賢くなる」とし、数時間〜数日かけて自律的に多段の作業をこなす“エージェント”を強調しています。人間の役割は、コードを打つ作業からゴール設定・設計・レビューへと比重を移していくでしょう。

同じ流れはAnthropic側でも起きています。比較の視点として、Claude Code/Cowork 2026進化まとめや、各社戦略を整理したAIエージェント覇権争い2026、AI Juggleカテゴリーもあわせてどうぞ。

まとめ

2026年のOpenAI Codexは、(1)AGENTS.mdやSkillsで型を定義し、チャットとは違う“自律実行”を可能にし、(2)Goal Mode・権限プロファイル・サブエージェント・Automationsなどを高速で追加し、(3)GPT-5.5でSWE-bench Verified約88.7%・Terminal-Bench 2.0でSOTAを記録し、(4)MCP/CLIで外部ツールを実際に操作できるようになり、(5)クラウド並列実行で“数週間を数日に”を狙う段階に入りました。コーディングAIは「補助」から「委任・指揮」のフェーズへ——その最前線の一つがOpenAI Codexです。

気になる商品の最安値、まとめて比較しませんか？

楽天市場とYahoo!ショッピングの価格を横断検索できます

🔍 最安値検索くんで探す →

Follow me!