By DeepLab 编辑部 2026-06-07 周报 0 Comments

本周 AI 大事记（2026-W23 / 06-01 ~ 06-07）

2026 年第 23 周（06-01 ~ 06-07）AI 圈最重磅的 10 条新闻，按重要程度排序。

1. GPT-5 SWE-bench Verified 突破 80%

OpenAI 内部技术分享会泄露：GPT-5 在 SWE-bench Verified 上达到 80.3%，是所有模型首次突破 80% 关口。内部目标 85%，预计 2026 Q4 完成。影响：AI 自主完成”中级工程师一天工作量”的目标基本实现。

Claude 4 Sonnet 和 Opus 同步发布，100 万 token 上下文正式可用，定价与 3.5 持平。SWE-bench 72%（单轮最佳），工具调用稳定性优于 Opus。我们的实测：Sonnet 性价比之王。

Llama 4 Scout（17B 激活 / 109B 总参数）和 Maverick（17B / 400B）开源，Apache 2.0 协议。1000 万 token 上下文窗口，欧洲训练数据占比从 4% 提升到 18%。

Mamba 原班人马第三篇正式论文：Selective State Routing 让 SSM 在 100 万 token 检索上首次击败同等规模 Transformer。7B 模型 LongBench 超过 GPT-4o。训练成本 -35%，推理显存 1/8。

半年实际立案 17 起（远低于预期），罚款累计 €4,200 万，**无任何超大型 GPAI 提供商被罚**。但版权合规成为硬骨头，5 家欧洲新闻机构对 OpenAI 集体诉讼中。

DeepSeek V3.5 升级版发布，API 定价 1 元/百万 token（输入），在多个中文 benchmark 上追平 GPT-4o。本地蒸馏版同步发布，覆盖 1.5B / 7B / 14B / 32B / 70B。

Cursor 0.45+ 把 Claude 4 Sonnet 设为默认代码模型，单次对话成本下降 30%。新增 Background Agent 功能：可异步执行长任务（重构、批量测试），用户离开后继续运行。

Gemini 2.5 Pro 升级视频理解：支持 4 小时连续视频，逐帧推理准确率 89%。在长视频摘要任务上首次超过 GPT-5。

OpenAI 把 ChatGPT Enterprise 重新设计为”AI 工作流平台”：集成 Excel、Slack、Notion、Jira。定价 $60 / 用户 / 月（+50%），目标是替代部分 Atlassian + Microsoft 365 + Slack 套餐。

开源 + 长上下文 + 推理强化是本周所有头部厂商的共同方向。中小团队接下来的策略建议：不要追新模型，而是用现有模型把 Agent 工程化。