Agentic Coding 模型是 LLM 技术最明显且最令人印象深刻的应用之一,其发展与市场影响和就业增长密切相关。有众多参与者竞相为各种应用创建最佳的新 LLM,许多人会认为在这个领域没有哪家公司及其产品比 OpenAI 影响更大。
GPT‑5.3‑Codex 是这一追求创建最佳模型征程中真正令人印象深刻的版本。OpenAI 承诺 GPT-5.3-Codex 是他们迄今为止最强大的 Codex 模型,在编码性能和专业推理能力上超越了 GPT-5.2-Codex。基准测试结果显示,在编码和 agentic 基准如 SWE-Bench Pro 和 Terminal-Bench 上达到了 state-of-the-art 性能,体现了更强的多语言和真实世界任务能力。此外,由于基础设施和推理改进,对于 Codex 用户来说,该模型比 GPT-5.2-Codex 快约 25%。总体而言,GPT‑5.3‑Codex 可能是迄今为止发布的最强大的 agentic coding 模型(Source)。
让我们来看看它能做什么。现在已在 GradientTM AI Platform 以及所有 OpenAI ChatGPT 和 Codex 资源上可用,我们可以测试该模型的表现。在本教程中,我们将展示如何使用 Codex 从零开始编写一个全新的项目。我们将使用 GPT‑5.3‑Codex 创建一个 Z-Image-Turbo 实时 image-to-image 应用,而无需任何用户编码!请跟随教程学习 GPT‑5.3‑Codex 提供的功能、如何亲自使用 GPT‑5.3‑Codex,以及从零开始 vibe coding 新 web 应用的指南!
关键要点
- State-of-the-Art Agentic 性能:GPT-5.3-Codex 在软件工程和 agentic 任务中提供了令人印象深刻的结果,在推理、多语言能力以及真实世界编码评估如 SWE-Bench Pro 和 Terminal-Bench 2.0 上超越了 GPT-5.2-Codex。
- 在 GradientTM AI Platform 上快速上手 GPT-5.3-Codex:您只需访问 Platform,即可开始将 LLM 的调用无缝集成到您的大规模工作流程中。
- 从原型到生产创纪录的速度:凭借约 25% 的速度提升和实时交互式引导,GPT-5.3-Codex 感觉不像静态生成器,而更像一个响应式的工程伙伴,能够与您一起迭代、调试和优化项目。通过处理 scaffolding、架构决策、边缘情况以及部署就绪细节,GPT-5.3-Codex 可以显著压缩开发时间表,使从零开始交付完整功能应用的速度比以往任何时候都更快(Source)。
GPT‑5.3‑Codex 概述
GPT-5.3-Codex 是一次主要的 agentic coding 模型升级,结合了更强的推理和专业知识与增强的编码性能,比 GPT-5.2-Codex 运行速度快约 25%,并在真实世界和多语言基准如 SWE-Bench Pro 和 Terminal-Bench 上表现出色。它旨在超越简单的代码生成,支持完整的软件生命周期任务(例如,debugging、deployment、documentation),并允许您在它工作时实时交互和引导,使其感觉更像协作伙伴而非生成器。它还扩展了长运行工作能力,提高了响应性,并在 IDE、CLI 和付费计划的 app 中有更广泛的可用性。(Source)
从上表可以看出,GPT‑5.3‑Codex 在软件工程、agentic 和计算机使用基准上比 GPT‑5.2‑Codex 有了重大进步。这与效率的显著提升相结合,构成了该模型多么出色的有力指标。我们认为这是对之前 GPT Codex 模型用户以及寻求强大 agentic coding 工具来辅助流程的新用户的重大升级。
GPT-5.3-Codex 入门指南
我们向开发者推荐两种开始使用 GPT-5.3-Codex 的方式。首先,通过 GradientTM AI Platform 使用 Serverless Inference 来访问模型。使用 Serverless Inference,我们可以轻松地将 LLM 生成集成到任何 Python 管道中。您只需创建一个模型访问密钥,即可开始生成!有关入门信息的更多详情,请查看官方文档。
另一种快速入门的途径是官方 OpenAI Codex 应用程序。在本地机器上开始使用 Codex 非常简单。只需将应用程序下载到您的计算机并启动即可。然后,您将被提示登录您的账户。从那里,选择您希望工作的项目,您就可以开始了!
使用 GPT‑5.3‑Codex 进行 Vibe Coding:构建 Z-Image-Turbo Web 应用程序
现在我们已经了解了 GPT‑5.3‑Codex 的性能,让我们来看看它的实际表现。对于这个实验,我们选择了一个相对新颖的任务,这个任务基于以往的应用。我们要求它创建一个用于 Z-Image-Turbo 的实时图像到图像管道,使用 webcam 视频作为图像输入。
为此,我们创建了一个全新的目录/项目空间。然后,我们要求模型首先创建项目的骨架框架,随后通过后续查询迭代添加缺失的功能。总体而言,我们仅用 5 个提示和 30 分钟的测试就创建了应用程序的完整工作版本。这种极高的速度使得从灵感到完成,整个项目在一天内即可上线。现在,让我们更详细地看看这个应用程序项目本身。
这个项目(可在此处找到)是一个实时 webcam 驱动的图像到图像生成应用程序,使用 Python 构建,围绕 Gradio 接口和专用的 Z-Image-Turbo inference engine,其中 app.py 中的 UI 呈现并排的实时输入和生成输出面板、参数控件,以及明确的 Start/Stop 门控,确保仅在请求时运行 inference,而 inference.py 中的后端通过 ZImageImg2ImgPipeline 加载 Tongyi-MAI/Z-Image-Turbo,反射管道签名以绑定正确的图像条件参数,强制执行真正的 img2img 语义而非仅提示生成,并在 torch.inference_mode() 中执行 inference,并使用动态参数布线,使行为适应已安装的 diffusers API。关键的是,它可以根据 webcam 宽高比计算每帧目标分辨率,将尺寸 snapping 到模型友好的倍数(默认 16),并将两边限制在 1024 以下,然后应用实际使用中使应用稳定的后生成保障措施:dtype 策略(自动优先 bf16 然后 fp32,避免 fp16 黑帧失败模式)、退化输出检测并自动 float32 恢复、健壮的 PIL/NumPy/Tensor 输出解码和归一化、有效强度 clamping 以保留源结构、帧哈希种子混合以使场景变化影响结果,以及可配置的结构保留输入混合,所有这些都在 config.py 中参数化,并在 README.md 中文档化,并提供运行时状态报告延迟加上内部诊断(pipe、dtype、大小、有效强度、blend、seed、warnings),这样您可以精确观察每一帧是如何被处理的。
结束语
GPT-5.3-Codex 感觉不像是一个增量更新,而更像是开发者与代码交互方式的重大转变。更强的推理能力、在测试中看到的基准测试提升,以及明显的速度改进,都清楚地表明 agentic coding 正在成熟为更适合生产环境的东西。曾经需要数小时编写样板代码、调试和手动连接的工作,现在可以通过迭代提示和高层次指导来编排。正如我们在 Z-Image-Turbo 实时应用中演示的那样,一个完全功能性的项目可以从空白目录快速转变为工作原型,所需时间远少于传统方法。虽然您实际体验的结果和性能收益会因具体项目需求、复杂度和个人开发者工作流程而异,但我们相信 GPT-5.3-Codex 提供了实质性的升级,并在 agentic coding 能力上迈出了重要一步,这得益于其更强的推理能力和可衡量的基准测试提升。
我们推荐在所有场景下尝试 GPT-5.3-Codex,特别是与 ’s GradientTM AI Platform 一起使用!