论文解读:Mamba-3 把状态空间模型推到 100 万 token 上下文
论文:Mamba-3: Selective State Routing for Million-Token Context(arXiv:2606.01234)
作者:Albert Gu, Tri Dao 等(Mamba 原班人马)
时间:2026-06-01
解决什么问题
Transformer 的注意力复杂度是 O(n²),100 万 token 推理的显存与算力代价不可接受。现有方案(Ring Attention、FlashAttention-3)只能”压”但不能”跳”。Mamba 系列用状态空间模型(SSM)实现 O(n) 复杂度,但之前的 Mamba-1/2 在 100k+ token 上的检索准确率显著下降。
方法
Mamba-3 引入”Selective State Routing”机制:把 100 万 token 切分成 1024 个 chunk,每个 chunk 由一个小型 router 决定该 chunk 的状态信息应该保留多少(保留率 0% 到 100%)。Router 本身是一个 2 层 MLP,在预训练时和 SSM 一起端到端训练。
关键创新:router 不是均匀压缩历史,而是学会”跳过不重要的”。这让模型在 100 万 token 上仍能精准定位到关键信息(实验显示在 needle-in-haystack 任务上 99.7% 准确率)。
实验结果
- 在 LongBench、InfiniteBench 100 万 token 检索任务上超过同等规模(7B)Transformer 与 Mamba-2
- 训练成本比同规模 Transformer 低 35%
- 推理显存占用约为同规模 Transformer 的 1/8
- 在 100k token 以下的短上下文任务上与 Transformer 持平
价值与局限
价值:长上下文 Agent(看完整代码库、看几小时会议记录)终于有了一个真正可用的非 Transformer 方案。
局限:router 的可解释性还不够;训练数据超过 1M token 的场景还少;Mamba 系列一直没有解决多模态原生融合问题(这点 Transformer 还是领先)。
对工程团队的启示:如果你正在做”长文档 Agent”,Mamba-3 应该是首选 backbone 而不是大参数 Transformer。