本周 AI 大事记(2026-W23 / 06-01 ~ 06-07)
本周 AI 圈 10 条最值得记住的事:GPT-5 SWE-bench 突破 80%、Claude 4 系列发布、Llama 4 重回开源、Mamba-3 长上下文新方案、欧盟 AI Act 半年观察。
DeepLab tag – model
本周 AI 圈 10 条最值得记住的事:GPT-5 SWE-bench 突破 80%、Claude 4 系列发布、Llama 4 重回开源、Mamba-3 长上下文新方案、欧盟 AI Act 半年观察。
Anthropic Claude 4 Sonnet 公测两周,我们用 12 个真实任务做横向对比。重点关注:100 万 token 检索准确率、代码能力、工具调用稳定性、定价。
OpenAI 内部路线图泄露:GPT-5 主线任务(SWE-bench Verified)目标 85%,目前已达 80.3%。Codex 团队被要求把失败案例重做一遍。