Claude Codeは速い、Codexは堅い？実務120時間比較で見えた本当の差

最近、英語圏の開発者コミュニティを見ていると、Claude CodeよりCodexを評価する声が少しずつ目立ってきています。ただ、ここは「どっちが速いか」だけで見ても、かなり分かりにくいです。

先に結論を書くと、Claude Codeは速いけど監視コストが重くなりやすい、Codexは遅いけど後始末がかなり少ない、という見え方でした。特に印象的だったのは、2026年4月13日にRedditへ投稿された、14年経験のエンジニアによる実務比較です。約8万行、約2800テストの同一プロジェクトで、Claude CodeとCodexを120時間規模で使い比べたレポートで、「本当の差は生成速度より、横でどれだけ監視と修正が必要かだった」と整理されていました。今回は、この比較から見えたポイントを、非エンジニアにも分かりやすい形で整理します。

I get more done in a session with Claude, but Codex work is better.

出典: Reddit「Claude Code (~100 hours) vs. Codex (~20 hours)」(2026年4月13日投稿) 元投稿を見る

先に差だけ見たい人向けの整理
この比較が面白いのは、デモではなく「同じ実務」をかなり長く比べていること
Claude Codeが「締切に追われるエンジニアっぽい」と言われた理由
Codexは遅い。でも、遅いからこそマージしやすいコードが出やすい
本当の差は、生成速度より「後始末コスト」だった
企業開発で本当に効くのは、「速さ」より「作法」かもしれない
最後はやっぱり、使う側のコード理解が上限を決める
まとめ

先に差だけ見たい人向けの整理

見どころ	Claude Code	Codex
作業速度	かなり速い。1セッションで進む量は多い	かなり遅い。体感で3分の1から4分の1ほど
指示順守	速さ優先で逸れやすい。ルール無視や途中放棄も起こりうる	かなり堅い。指示や運用ルールを守りやすい
コードの出方	先に動かす。あとで整える前提になりやすい	遅いけど、途中で自分から整え直すことがある
人間の負担	横で見て修正し続ける必要が大きい	投げて戻ってきてから確認しやすい
向く場面	早い試作、たたき台、低〜中複雑度の開発	長く運用するコード、企業向けの堅い実装

要するに、見た目の速度だけならClaude Codeの方が魅力的です。でも、実務で効いてくるのは「あとでどれだけ面倒が返ってくるか」でした。

この比較が面白いのは、デモではなく「同じ実務」をかなり長く比べていること

今回のReddit投稿が強いのは、単発の感想ではなく、かなり実務寄りだったことです。投稿者は14年経験で、いわゆるMAG7と大手テックでの経験があるエンジニア。対象プロジェクトも、約8万行のPython / TypeScript構成で、約2800テストを持つデータ分析アプリでした。

しかも、同じプロジェクトで、計画、レビュー、手動確認まで含めた共通のワークフローを前提に比べています。つまり、「たまたま相性が悪かった」だけでは片づけにくい。少なくとも、まとまった実務の中で何がしんどいかを見た比較としてはかなり価値があります。

ここが大事で、AIコーディングの話はどうしても「何分で作れたか」に寄りやすいです。でも実際の仕事は、仕様を守る、ルールに従う、テストを壊さない、後から読める形にする、まで含めてやっと終わります。

Claude Codeが「締切に追われるエンジニアっぽい」と言われた理由

投稿者の比喩でかなり印象的だったのが、Claude Codeは「締切に追われて、とにかく動かす方へ寄るエンジニアっぽい」という見え方でした。速く進める力はある。でも、その速さの代わりに、少し危うい挙動が混ざるという話です。

実際に挙げられていたのは、ルール文書を無視する、移行タスクを半端に残す、既存ファイルに関数を足し続ける、壊れたテストをその場の都合で直そうとする、といった傾向でした。これ自体は「絶対そうなる」とまでは言えないですが、少なくとも投稿者は毎セッションに近い頻度で逸脱を見たと書いています。

だからClaude Codeの価値は、速く大きく前に進めることにあります。逆に言うと、そこを活かすには、横で見ながら「今それはやらなくていい」「その修正は危ない」と運転できる人が必要になりやすいです。

Codexは遅い。でも、遅いからこそマージしやすいコードが出やすい

一方のCodexは、投稿者いわくかなり遅いです。同じタスクでも、Claude Codeの3分の1から4分の1くらいの速度感だったと書かれていました。ここだけ見ると、かなり弱く見えます。

でも、その遅さの中身が違った。Codexは、途中で立ち止まって、前提を見直し、コードを整え直し、自分からリファクタすることがある、と評価されています。さらに、AGENTS.mdのような運用ルールをほぼ無視しなかったという点もかなり大きいです。

結果として、投稿者はCodexに対して「流し見せずに離席し、終わってからレビューする」運用ができたと書いています。これはかなり重要で、AIに任せやすいかどうかは、結局ここに出やすいです。

本当の差は、生成速度より「後始末コスト」だった

今回の比較でいちばん刺さるのはここでした。投稿者は、Claude Codeの方が1セッションで進む量は多いと認めています。ただ、その速さの代わりに、数日おきに「ぐちゃぐちゃな後始末」に丸一日近く持っていかれることがある、と書いていました。

逆にCodexは、その場で進む量は少ない。でも、出てくるものがかなりそのままマージに近い。だから、合計時間で見ると「遅いのに、精神的にも運用的にも楽」という見え方になります。

ここは非エンジニアにもかなり通じる話です。AIの価値って、見た目のスピードより、あとで人間がどれだけ尻ぬぐいしなくていいかに出やすい。ブログ運営でも同じで、速く下書きが出ても、あとで全部直し続けるなら、そこまで楽ではないです。

企業開発で本当に効くのは、「速さ」より「作法」かもしれない

この話が企業向けの文脈で強いのは、エンタープライズ開発って「速く出す」だけでは終わらないからです。ルールを守る、既存設計に合わせる、テストの意味を壊さない、あとでチームが読める、という作法の方が重い場面が多い。

だから、もし本当にこの流れが広がるなら、今後の比較軸は「どのモデルが速いか」「どれが安いか」だけでは足りなくなります。むしろ、どれだけ監視が要らないか、どれだけ運用ルールを守るか、どれだけ後始末が少ないか の方が本命になっていくはずです。

最近Codexに寄る人が目立つのも、単にOpenAIが強いからというより、この「作法」の差を見ている人が増えているからかもしれません。

最後はやっぱり、使う側のコード理解が上限を決める

ただ、この比較で最後にいちばん地に足がついていたのは、「どちらを使っても、ソフトウェア開発の理解がなければ出力は崩れる」という点でした。ここはかなりその通りだと思います。

AIは増幅器です。強い人が使うとかなり強くなるし、分からないまま使うと、それっぽいけど危ないものも増えやすい。だから、Claude CodeとCodexのどちらを使うにしても、最後に効くのは、自分がどこを見てレビューするかです。

その意味では、今回の比較は「どっちが最強か」を決める話というより、速さの裏で発生する監視コストを見落とすな、というかなり実務的な話でした。

まとめ

Claude CodeとCodexの実務比較で見えたのは、単純な性能差より、仕事の回し方の違いでした。Claude Codeは速くて前へ進む。でも、そのぶん監視と後始末が重くなりやすい。Codexは遅いけど、堅実で、そのままマージに近い形で出てきやすい。

だから、本当の比較軸は「どっちが速いか」だけではないです。むしろ、人間がどれだけ横で見て、止めて、直して、片づける必要があるか。ここが、これからのAIコーディング比較ではかなり大きくなっていくと思います。

次に読むなら、作業型AIの違いを広く見たい人はコードや作業で選ぶならどのAI？、Codexそのものの入口を見たい人は ChatGPT Codexとは？、Codexの広がりを別角度から見たい人は Codexはもうコード専用じゃない？の方がつながりやすいです。

参考にした主な情報: Reddit「Claude Code (~100 hours) vs. Codex (~20 hours)」(2026年4月13日投稿) / Reddit「Codex quality is surpassing Claude Code for me」 / Reddit「After months with Claude Code, the biggest time sink isn’t bugs — it’s silent fake success」 / OpenAI「Codex」 / Anthropic「Claude Code」

このブログではAIと副業の試行錯誤を書いています。X→ @yuruaibu / Threads→ @yuruaibu1 / note→ yuruaibu