本周 AI 大事记(2026-W23 / 06-01 ~ 06-07)

2026 年第 23 周(06-01 ~ 06-07)AI 圈最重磅的 10 条新闻,按重要程度排序。

1. GPT-5 SWE-bench Verified 突破 80%

OpenAI 内部技术分享会泄露:GPT-5 在 SWE-bench Verified 上达到 80.3%,是所有模型首次突破 80% 关口。内部目标 85%,预计 2026 Q4 完成。影响:AI 自主完成”中级工程师一天工作量”的目标基本实现。

2. Anthropic Claude 4 系列发布

Claude 4 Sonnet 和 Opus 同步发布,100 万 token 上下文正式可用,定价与 3.5 持平。SWE-bench 72%(单轮最佳),工具调用稳定性优于 Opus。我们的实测:Sonnet 性价比之王。

3. Meta 正式发布 Llama 4

Llama 4 Scout(17B 激活 / 109B 总参数)和 Maverick(17B / 400B)开源,Apache 2.0 协议。1000 万 token 上下文窗口,欧洲训练数据占比从 4% 提升到 18%。

4. Mamba-3 把状态空间模型推到 100 万 token

Mamba 原班人马第三篇正式论文:Selective State Routing 让 SSM 在 100 万 token 检索上首次击败同等规模 Transformer。7B 模型 LongBench 超过 GPT-4o。训练成本 -35%,推理显存 1/8。

5. 欧盟 AI Act 实施半周年

半年实际立案 17 起(远低于预期),罚款累计 €4,200 万,**无任何超大型 GPAI 提供商被罚**。但版权合规成为硬骨头,5 家欧洲新闻机构对 OpenAI 集体诉讼中。

6. DeepSeek V3.5 正式上线

DeepSeek V3.5 升级版发布,API 定价 1 元/百万 token(输入),在多个中文 benchmark 上追平 GPT-4o。本地蒸馏版同步发布,覆盖 1.5B / 7B / 14B / 32B / 70B。

7. Cursor 0.45+ 集成 Claude 4 默认模型

Cursor 0.45+ 把 Claude 4 Sonnet 设为默认代码模型,单次对话成本下降 30%。新增 Background Agent 功能:可异步执行长任务(重构、批量测试),用户离开后继续运行。

8. Google DeepMind 发布 Gemini 2.5 Pro 多模态升级

Gemini 2.5 Pro 升级视频理解:支持 4 小时连续视频,逐帧推理准确率 89%。在长视频摘要任务上首次超过 GPT-5。

9. OpenAI 推出 ChatGPT Enterprise 2.0

OpenAI 把 ChatGPT Enterprise 重新设计为”AI 工作流平台”:集成 Excel、Slack、Notion、Jira。定价 $60 / 用户 / 月(+50%),目标是替代部分 Atlassian + Microsoft 365 + Slack 套餐。

10. 投资动态:3 起大额 AI 融资

  • Anthropic 完成 35 亿美元 F 轮,估值 850 亿美元
  • 智谱完成 8 亿美元 Pre-IPO 轮,估值 60 亿美元
  • 月之暗面(Kimi)完成 5 亿美元 C 轮,估值 45 亿美元

本周趋势一句话

开源 + 长上下文 + 推理强化是本周所有头部厂商的共同方向。中小团队接下来的策略建议:不要追新模型,而是用现有模型把 Agent 工程化

下周值得关注

  • Apple WWDC 2026(6 月 9 日)— 传闻发布 Apple Intelligence 2.0 + 自研 LLM 端侧部署
  • Google I/O 后续更新(6 月 10 日)— Gemini 3 预告?
  • Stripe Sessions 2026 — AI Agent 支付协议可能成为新热点
Leave a Comment