深入探索 Codex 的 Vibe Coding 边界

很长一段时间里，Gemini 一直是我的主力开发辅助模型。直到有一次，我遇到一个很复杂的 bug：来回改了很多轮，问题始终没有真正解决。那天我在 VS Code 的模型列表里看到一个新的选项：GPT-5.3-Codex，于是抱着试一试的心态切了过去，并打开高级推理模式。

几分钟后，它把问题解决了。

我当时的感受很直接：这东西不只是“更会写代码”，而是它真的更懂代码背后的约束。

一个月前，OpenAI 发布 Codex App。因为之前对 Codex 模型的体验很好，我第一时间上手试了一轮。用下来之后，我最大的感受是：这不是传统意义上的 IDE，也不是简单把聊天框搬到桌面上，而是在把“写代码”这件事，重新包装成“调度 Agent 干活”。

这篇文章就聊聊我目前探索到的 Codex App 体验，以及 Vibe Coding 的能力边界。

1️⃣ 语言模型为什么会向编程模型进化

这两年，大模型厂商的竞争方向越来越一致：不再只是聊天、跑分、写作文，而是编程。

原因也不难理解。

程序是对现实规则最清晰、最可验证的表达。你写下一段代码，输入、输出、边界、异常、依赖、状态流转，几乎都能被系统立刻反馈。对模型来说，这是一种极高质量的训练材料。

比如我们定义一个 Person 对象，就要描述它有哪些属性、有哪些行为；再定义 Man 或 Woman 时，又会继承 Person 的基础规则。面向对象、类型系统、测试用例、接口协议，本质上都是在用严密的逻辑去抽象世界。

这套规则越清楚，模型就越容易学会：

如何拆解问题
如何维护上下文
如何处理边界条件
如何根据反馈修正行为

所以我越来越觉得，编程不是大模型能力的一个分支，而是大模型走向“世界模型”的关键训练场。

2️⃣ 总有一些程序员想革同行的命

Claude 很早就以“擅长编程”进入大众视野，也长期引领着编程模型的体验方向。后来 CLI 编程兴起，国内外很多产品迅速跟进。

CLI 编程确实很酷，但它也有明显问题：

交互门槛高
上下文组织困难
一次通常只能指挥一个 Agent
对不熟悉终端的人不够友好

桌面端编程 Agent 的出现，本质上是把命令行里那套能力重新做了一层产品化。它不仅要能改代码，还要能理解项目、读文件、跑测试、看浏览器、处理图片、接入 GitHub、长期执行任务。

这也是 Codex App 最让我感兴趣的地方：它不是把 AI 塞进编辑器，而是反过来，把项目、任务、工具和 Agent 放到同一个工作台里。

3️⃣ Codex 和“半古法编程”的区别

都 2026 年了，真正完全不用 AI 的“古法编程”，我想已经不多见了。

现在你用 VS Code 也好，用 JetBrains 全家桶也好，大概率都会有一个聊天边栏：人在编辑区写代码，在聊天栏下提示词，让 Agent 帮你补代码、改 bug、解释报错。

这种形态可以叫做“半古法编程”。

它的核心仍然是：人坐在驾驶位，AI 坐在副驾驶。

你仍然要盯着文件、定位代码、拆任务、控制节奏。AI 很强，但它更多是在当前编辑器里增强你的手。

Codex App 的交互更激进。

它甚至没有传统意义上的代码编辑区，左侧是项目列表和聊天列表，中间是任务对话。这个设计像是在告诉你：别盯着每一行代码了，去指挥更多 Agent 同时干活，然后验收结果。

实际使用里，它更像一个任务调度中心：

一个 Agent 修后端 bug
一个 Agent 改前端交互
一个 Agent 检查 CI
一个 Agent 帮你整理文档
你负责审查方案、确认方向、验收质量

这也是我愿意把它称为“超现代编程”的原因：它改变的不只是编码方式，而是工作分配方式。

更有意思的是，桌面端和手机 App 可以连通。你可以用手机下发任务，让电脑持续工作。这个体验很容易让人想到曾经很火的“龙虾”类产品：你不再只是和一个聊天机器人对话，而是在把一台电脑交给 AI 代理使用。

4️⃣ 再见了，“龙虾”们

看下面这些截图，会发现 Codex App 已经不只是一个编程工具，它更像一个桌面端 AI 代理平台。

它有插件：

也有技能：

这些能力意味着，它可以逐步接入更多外部工具：浏览器、文档、表格、GitHub、自动化任务、图片生成，甚至以后更多本地应用。

所以我对 Codex 的判断是：

它首先是编程工具，但不会只停留在编程工具。

当大模型厂商亲自下场做桌面 Agent，很多原本靠“控制电脑”“代替点击”“帮你自动执行任务”起家的产品，都会被重新审视。它们曾经解决的是入口问题，但现在更大的平台开始把入口、模型、工具链和执行环境打包到一起。

这就是 Codex App 最有杀伤力的地方。

5️⃣ 国内怎么用 Codex

目前我主要尝试过两条路径。

路径一：VS Code + Copilot Pro

VS Code 已经集成了很多模型。你需要在 GitHub 注册账号，并开通 Copilot Pro 订阅。当前月费约 10 美元，可以用国内银行卡付款，国内网络也勉强能访问。

但它的问题是：额度消耗比较快。

如果正常开发、频繁切模型、经常让 Agent 改代码，10 美元额度可能很快就会见底，需要增加订阅额度，或者设置 budgets 按量付费。

这是我当前看到的模型列表：

可以看到这个订阅的额度还不能使用Claude Opus模型，需要订阅Copilot Pro+，39美元/月，这就是为什么很多硅谷的公司最近都在喊停，很多人token开支都要超过工资开支了。

另外要注意，国内网络访问这些最新模型时，速度波动比较大。我的体验是上午 10 点前通常比较顺，下午时好时坏，晚上更容易卡住，甚至完全不可用。

路径二：ChatGPT Plus + Codex App

从综合体验看，这条路径更适合长期使用。

Plus 会员月费 20 美元，额度按周刷新。按我这周的使用强度，连续用了两天后，周额度还剩 64%。如果实在不够，再搭配一个 Copilot Pro 作为补充，整体成本也比纯靠 Copilot 堆额度更舒服。

但这条路的麻烦在于：国内网络无法直接稳定访问和开通。

苹果用户可以考虑通过 iPhone 上的 ChatGPT App 订阅 Plus。大致思路是：

准备一个稳定、独立的能上网的网络环境，最好是自己部署的，成本约20～30元/月。
注册或登录 ChatGPT 账号。
准备美区 Apple ID。
给美区账号充值礼品卡，可闲鱼，成本130元/月。
在 iPhone 下载 ChatGPT App，并在 App 内订阅 Plus。
桌面端登录同一个账号，即可使用 Codex App。

这里不展开具体教程，网上资料很多。我的建议只有一个：尽量用稳定、干净、长期可用的环境，不要频繁切换不可靠节点，账号安全比省一点小钱更重要。

6️⃣ Codex 的能力边界

Codex 很强，但它不是魔法。

如果只讲优点，很容易把 Vibe Coding 讲成“人类马上失业”。但真正用了之后会发现，它最有价值的地方不是替你写几行代码，而是把开发流程重新拆成了：

提需求
评方案
放手执行
审查结果
继续收敛

下面是我目前最明显的几个感受。

1. 模型能力不是线性扩散

不同模型擅长的任务并不一样。

我目前的体验是，GPT-5.5 在常规任务上的稳定性更好，输出更快、更顺，尤其是需求清晰、规则不复杂的场景。但在一些复杂逻辑问题上，GPT-5.3-Codex 反而可能更强。

我遇到过一个 bug，用 GPT-5.5 来回调了十几轮，依然没有解决。后来切到 GPT-5.3-Codex，一次就过了。

所以一个很实用的经验是：

如果某个模型开始在同一个坑里反复横跳，不要继续硬熬，换模型往往比继续加提示词更有效。

2. 放养式编程并不总是有效

Codex 很适合执行，但复杂需求不要一上来就让它直接改。

更稳的做法是：

先让 AI 读代码并给方案。
人类评估方案是否符合业务逻辑。
确认后再让 AI 动手。
改完要求它解释变更点、风险点和验证方式。

如果你只是把一大段需求丢过去，然后说“直接改”，很容易被坑。尤其当第一轮方向错了，后面 AI 会沿着错误前提继续修补，最后越改越绕。

3. 结伴式编程目前更可取

Codex App 的设计很激进，但面对大型项目，仍然不能完全放养。

前端项目可以相对放手。页面、交互、状态、动画这些东西更直观，错了也容易看出来。AI 如果走偏，可以回退代码重新规划，通常总能修到可用。

后端项目要谨慎得多。

简单的增删改查、接口适配、字段补充、单元测试，AI 写得又快又好。但前提是你的框架本身足够清晰。如果项目架构原本就混乱，AI 只会在混乱上继续叠混乱。

复杂业务更不能完全放养。因为后端逻辑链更长，很多规则一开始连人都想不清楚。这个时候，AI 更适合做结伴对象：它负责快速探索和实现，人类负责判断方向、补充约束、识别风险。

4. 代码更容易变臃肿

AI 很喜欢加边界判断。

这和训练数据有关。它见过大量优秀开源基础库，而这些库通常会用很多防御性代码处理极端输入。但实际业务系统里，很多边界条件因为上游接口、权限、流程约定，根本不可能触发。

结果就是：AI 有时会把一个很简单的逻辑写成一坨“看起来很安全”的代码。

人类审查时一定要注意这一点：

这个判断真的会触发吗？
这个兼容逻辑是否有业务必要？
这段代码是不是把简单问题复杂化了？
有没有更低成本的改法？

不是所有“更健壮”的代码都更好。业务代码最怕的是看起来滴水不漏，实际上谁都不敢改。

5. 技术方案不一定结合项目实际

AI 很擅长在当前上下文里解决问题，但它不一定知道项目之外还有更简单的办法。

比如一个需求，AI 可能会在当前文件里改几百行代码，新增一堆状态和分支；但对熟悉系统的人来说，也许只要在某张表加一个字段，或者改一个配置变量，问题就结束了。

所以当你看到 AI 为一个“看起来很小”的需求写出大量代码时，一定要警觉。

这时候不要急着让它继续改，而是反问：

有没有更小的改动面？

有没有数据层、配置层、框架层的解决方案？

有没有现成工具或已有模块可以复用？

6. 主动性和创新仍然不足

复杂业务里，人类专家会同时考虑实现难度、维护成本、兼容性、组织协作和未来演进。有经验的人经常能想到一种更便宜、更绕开复杂度的做法。

AI 目前还不太会主动这样思考。

它更擅长在你给定的轨道里跑得很快，但不一定会主动跳出轨道，告诉你：“这个需求可以换个角度做，根本不用这么改。”

不过这并不代表它没有价值。相反，我觉得 AI 最强的地方，是能在对话中不断刺激人类形成新想法。很多时候，并不是 AI 直接给出最终方案，而是它给出几个不完美方案后，人类突然意识到真正应该怎么做。

这种“互相启发”，才是现阶段 Vibe Coding 最舒服的状态。

07 程序员是否不需要了

我的判断是：编码工作会被替代很多，但程序员不会立刻消失。

前端方向受到的冲击会更明显。

复杂动画、粒子效果、页面布局、响应式适配、组件状态、接口调用，这些工作 AI 已经能完成得很快。未来单纯只会写页面的人，竞争力会越来越弱。

前端程序员需要往两端扩展：

往上，补审美、交互、产品判断
往下，补工程化、性能、架构、复杂状态管理

也就是说，要打通 UI 设计和编码能力，形成自己的“大前端闭环”。

UI 设计师也一样。只会交付设计稿的岗位会被挤压，但如果设计师能用 Vibe Coding 把审美直接落成可运行产品，反而会变得更强。

后端方向的变化会慢一些。

因为后端通常有更长的逻辑链、更强的状态依赖、更高的错误成本。AI 可以写很多代码，但要完全信任它处理复杂业务，目前还不现实。

至少在相当长一段时间里，人类专家仍然有价值。这个价值不只是“会写代码”，而是：

能判断什么不该写
能识别系统真正的瓶颈
能在复杂约束里找到低成本方案
能为线上风险负责

如果未来某一天，AI 真的能替代绝大部分编码工作，那人类程序员也不会立刻消失，而是更像流水线工厂里的机器操作员：负责设定目标、监控过程、抽检质量、处理异常。

只不过到那个时候，“程序员”这个词的含义，可能已经和今天完全不一样了。

结语

Codex App 给我的最大冲击，不是它能写代码，而是它让我重新思考：开发者到底应该把时间花在哪里。

以前我们把大量精力花在写、找、改、试上。现在越来越多这类工作可以交给 Agent。人真正需要守住的，是问题定义、方案判断、业务理解和最终责任。

这也是我目前对 Vibe Coding 的判断：

它不是躺平式编程，而是把程序员从“手工码字的人”，推向“系统设计者、任务调度者和质量审查者”。

真正的边界，不在 AI 能不能写代码。

而在于人类还能不能提出更好的问题，并判断什么才是更好的答案。