By DeepLab 编辑部 2026-06-07 论文解读 0 Comments

论文解读：Mamba-3 把状态空间模型推到 100 万 token 上下文

论文：Mamba-3: Selective State Routing for Million-Token Context（arXiv:2606.01234）
作者：Albert Gu, Tri Dao 等（Mamba 原班人马）
时间：2026-06-01

解决什么问题

Transformer 的注意力复杂度是 O(n²)，100 万 token 推理的显存与算力代价不可接受。现有方案（Ring Attention、FlashAttention-3）只能”压”但不能”跳”。Mamba 系列用状态空间模型（SSM）实现 O(n) 复杂度，但之前的 Mamba-1/2 在 100k+ token 上的检索准确率显著下降。

方法

Mamba-3 引入”Selective State Routing”机制：把 100 万 token 切分成 1024 个 chunk，每个 chunk 由一个小型 router 决定该 chunk 的状态信息应该保留多少（保留率 0% 到 100%）。Router 本身是一个 2 层 MLP，在预训练时和 SSM 一起端到端训练。

关键创新：router 不是均匀压缩历史，而是学会”跳过不重要的”。这让模型在 100 万 token 上仍能精准定位到关键信息（实验显示在 needle-in-haystack 任务上 99.7% 准确率）。

实验结果

在 LongBench、InfiniteBench 100 万 token 检索任务上超过同等规模（7B）Transformer 与 Mamba-2
训练成本比同规模 Transformer 低 35%
推理显存占用约为同规模 Transformer 的 1/8
在 100k token 以下的短上下文任务上与 Transformer 持平

价值与局限

价值：长上下文 Agent（看完整代码库、看几小时会议记录）终于有了一个真正可用的非 Transformer 方案。

局限：router 的可解释性还不够；训练数据超过 1M token 的场景还少；Mamba 系列一直没有解决多模态原生融合问题（这点 Transformer 还是领先）。

对工程团队的启示：如果你正在做”长文档 Agent”，Mamba-3 应该是首选 backbone 而不是大参数 Transformer。

论文解读：Mamba-3 把状态空间模型推到 100 万 token 上下文

解决什么问题

方法

实验结果

价值与局限

Leave a Comment 取消回复

近期文章

近期评论

近期文章

近期评论

归档

分类

其他操作