DeepLab > 模型动态 > 快讯：GPT-5 在 SWE-bench Verified 突破 80%，OpenAI 内部目标 85%

By DeepLab 编辑部 2026-06-07 模型动态 0 Comments

快讯：GPT-5 在 SWE-bench Verified 突破 80%，OpenAI 内部目标 85%

OpenAI 内部技术分享会泄露的最新数字：GPT-5 在 SWE-bench Verified（业界最难的真实代码修复任务）上达到 80.3%，是所有模型首次突破 80% 关口。内部目标 85%，预计 2026 Q4 完成。

同期对比：Claude 4 Opus 78.6%、Llama 4 Maverick 72.1%、Gemini 2.5 Pro 69.4%。

影响：SWE-bench 80% 意味着 AI 自主完成”中级工程师一天工作量”的目标基本实现。Cursor / Claude Code / Codex Agent 这类工具会立刻跟进，定价模型可能从按 token 计费改为按任务成功率计费。

Leave a Comment 取消回复