快讯:GPT-5 在 SWE-bench Verified 突破 80%,OpenAI 内部目标 85%
OpenAI 内部技术分享会泄露的最新数字:GPT-5 在 SWE-bench Verified(业界最难的真实代码修复任务)上达到 80.3%,是所有模型首次突破 80% 关口。内部目标 85%,预计 2026 Q4 完成。
同期对比:Claude 4 Opus 78.6%、Llama 4 Maverick 72.1%、Gemini 2.5 Pro 69.4%。
影响:SWE-bench 80% 意味着 AI 自主完成”中级工程师一天工作量”的目标基本实现。Cursor / Claude Code / Codex Agent 这类工具会立刻跟进,定价模型可能从按 token 计费改为按任务成功率计费。