本周 AI 大事记(2026-W23 / 06-01 ~ 06-07)
2026 年第 23 周(06-01 ~ 06-07)AI 圈最重磅的 10 条新闻,按重要程度排序。
1. GPT-5 SWE-bench Verified 突破 80%
OpenAI 内部技术分享会泄露:GPT-5 在 SWE-bench Verified 上达到 80.3%,是所有模型首次突破 80% 关口。内部目标 85%,预计 2026 Q4 完成。影响:AI 自主完成”中级工程师一天工作量”的目标基本实现。
2. Anthropic Claude 4 系列发布
Claude 4 Sonnet 和 Opus 同步发布,100 万 token 上下文正式可用,定价与 3.5 持平。SWE-bench 72%(单轮最佳),工具调用稳定性优于 Opus。我们的实测:Sonnet 性价比之王。
3. Meta 正式发布 Llama 4
Llama 4 Scout(17B 激活 / 109B 总参数)和 Maverick(17B / 400B)开源,Apache 2.0 协议。1000 万 token 上下文窗口,欧洲训练数据占比从 4% 提升到 18%。
4. Mamba-3 把状态空间模型推到 100 万 token
Mamba 原班人马第三篇正式论文:Selective State Routing 让 SSM 在 100 万 token 检索上首次击败同等规模 Transformer。7B 模型 LongBench 超过 GPT-4o。训练成本 -35%,推理显存 1/8。
5. 欧盟 AI Act 实施半周年
半年实际立案 17 起(远低于预期),罚款累计 €4,200 万,**无任何超大型 GPAI 提供商被罚**。但版权合规成为硬骨头,5 家欧洲新闻机构对 OpenAI 集体诉讼中。
6. DeepSeek V3.5 正式上线
DeepSeek V3.5 升级版发布,API 定价 1 元/百万 token(输入),在多个中文 benchmark 上追平 GPT-4o。本地蒸馏版同步发布,覆盖 1.5B / 7B / 14B / 32B / 70B。
7. Cursor 0.45+ 集成 Claude 4 默认模型
Cursor 0.45+ 把 Claude 4 Sonnet 设为默认代码模型,单次对话成本下降 30%。新增 Background Agent 功能:可异步执行长任务(重构、批量测试),用户离开后继续运行。
8. Google DeepMind 发布 Gemini 2.5 Pro 多模态升级
Gemini 2.5 Pro 升级视频理解:支持 4 小时连续视频,逐帧推理准确率 89%。在长视频摘要任务上首次超过 GPT-5。
9. OpenAI 推出 ChatGPT Enterprise 2.0
OpenAI 把 ChatGPT Enterprise 重新设计为”AI 工作流平台”:集成 Excel、Slack、Notion、Jira。定价 $60 / 用户 / 月(+50%),目标是替代部分 Atlassian + Microsoft 365 + Slack 套餐。
10. 投资动态:3 起大额 AI 融资
- Anthropic 完成 35 亿美元 F 轮,估值 850 亿美元
- 智谱完成 8 亿美元 Pre-IPO 轮,估值 60 亿美元
- 月之暗面(Kimi)完成 5 亿美元 C 轮,估值 45 亿美元
本周趋势一句话
开源 + 长上下文 + 推理强化是本周所有头部厂商的共同方向。中小团队接下来的策略建议:不要追新模型,而是用现有模型把 Agent 工程化。
下周值得关注
- Apple WWDC 2026(6 月 9 日)— 传闻发布 Apple Intelligence 2.0 + 自研 LLM 端侧部署
- Google I/O 后续更新(6 月 10 日)— Gemini 3 预告?
- Stripe Sessions 2026 — AI Agent 支付协议可能成为新热点