By DeepLab 编辑部 2026-06-07 论文解读 0 Comments 论文解读:Mamba-3 把状态空间模型推到 100 万 token 上下文 Mamba 系列第三篇正式论文,引入动态内存路由与稀疏注意力混合架构,在 100 万 token 检索任务上首次击败同等规模 Transformer。