OpenAI Codex 重大升级：支持全系统操作与多智能体协作

OpenAI 于 2026 年 4 月 16 日宣布对其 Codex 模型进行重大升级。此次更新使 Codex 能够超越单纯的代码编写，实现对计算机系统的全面操作，包括视觉识别、点击及输入。新版本支持多智能体并行工作、原生网页交互、图像生成以及超过 90 种新增插件，旨在为全球超过 300 万开发者提供覆盖全生命周期的软件开发支持。

核心要点

全系统操作能力：Codex 现在可以通过视觉识别、点击和输入来操作计算机上的所有应用程序，支持后台运行且不干扰用户操作。
多智能体并行：支持在 Mac 上并行运行多个智能体，提升复杂任务的处理效率。
深度开发工作流集成：新增 PR 审查、多文件与终端查看、SSH 远程连接及内置浏览器等功能。
多模态与扩展性：集成 gpt-image-1.5 用于图像生成，并新增 90 多个插件及 MCP 服务器支持。

详细分析

从代码助手到系统级操作员的演进

Codex 的定位已从单纯的编程辅助工具演变为全方位的开发伙伴。通过新增的“后台计算机使用”功能，Codex 能够像人类一样通过视觉和模拟输入来操作电脑上的各类应用。这一突破对于那些没有公开 API 的应用程序尤为重要，开发者现在可以利用 Codex 在这些封闭应用中进行自动化测试或前端调整。此外，多智能体并行协作的能力意味着开发者可以在不中断当前工作的情况下，让多个 Codex 实例在后台处理不同的子任务。

深度集成开发生命周期

为了进一步优化开发体验，Codex 应用程序现在提供了更深层次的工作流支持。新版本集成了 PR（拉取请求）审查功能，允许开发者在同一个界面内查看多个文件和终端。通过 SSH 连接远程开发机（devboxes）的功能，使得云端开发更加便捷。最值得关注的是内置浏览器的加入，开发者可以直接在页面上添加评论并向智能体发送精确指令，这极大地加快了前端设计、应用程序和游戏开发的迭代速度。

视觉生成与生态扩展

Codex 现已集成 gpt-image-1.5 模型，使其具备了在开发流程中直接生成和修改图像的能力。结合屏幕截图和代码上下文，开发者可以快速创建产品原型、前端设计稿和游戏视觉素材。同时，OpenAI 发布了超过 90 种新插件，这些插件结合了技能、应用集成和 MCP（模型上下文协议）服务器，显著增强了 Codex 在不同工具间获取上下文并执行任务的能力。

行业影响

Codex 的此次更新标志着 AI 开发工具从“对话式编程”向“自主式代理”的重大转变。通过引入全系统操作和多智能体协作，OpenAI 正在重新定义软件开发的边界。这不仅提升了开发者的生产力，也为无 API 环境下的自动化提供了新方案。此外，图像生成与网页原生交互的结合，预示着未来 AI 将在 UI/UX 设计与前端工程中扮演更加核心的角色，进一步推动开发流程的自动化与智能化。

常见问题

问题 1：Codex 的后台操作会干扰我正在进行的工作吗？

根据官方说明，Codex 支持在后台并行运行多个智能体，它们在 Mac 上工作时不会干扰用户在其他应用程序中的正常操作。

问题 2：Codex 如何处理没有 API 的应用程序？

Codex 现在具备“看到”屏幕、点击和输入的能力，这意味着它可以通过模拟人类操作来使用任何安装在计算机上的应用程序，无论该应用是否提供 API。

问题 3：新版本在前端开发方面有哪些具体改进？

新版本引入了内置浏览器，开发者可以直接在网页上进行标注并给出指令。结合 gpt-image-1.5 的图像生成能力，开发者可以更快速地迭代前端设计、原型和游戏画面。

OpenAI 发布 Codex 重大更新：支持全系统操作与多智能体并行协作