本报记者李玉洋上海报道
就在埃隆·马斯克在X平台直播Grok3的“万亿参数”狂欢前,中国AI大模型圈正上演着更隐秘的技术革命。
近期,深度求索(DeepSeek)和月之暗面(MoonShot)同日发布了新论文,且两家明星公司的创始人也都有署名,双方不约而同剑指Transformer架构最核心的注意力机制(AttentionMechanism),让大模型能更高效处理更长的上下文。
前者提出原生稀疏注意力(NSA,Native SparseAttention),宣称处理64K(用来描述文本的长度,64K就是6.4万)长文本速度提升11.6倍;后者祭出块注意力混合架构(MoBA,Mixture ofBlock Atten-tion),在10Mtoken场景提速16倍。
《中国经营报》记者注意到,就在一个月前,国内“AI大模型六小虎”之一的MiniMax也在其首个开源模型MiniMax-01中大规模引入了一种新的注意力机制——闪电注意力(Lightning Attention),核心是通过将注意力计算分解为多个小块(blocks),采用线性复杂度的计算方式,来实现对长序列的高效处理。
不同的是,深度求索和月之暗面的尝试都属于“稀疏注意力机制”(Sparse Attention),而Mini-Max则是“线性注意力机制”(LinearAttention)。
“MoBA和NSA都是对Trans-former架构中传统注意力机制的有力挑战,它们分别从不同的角度出发,探索了稀疏注意力的可能性。MoBA在简单性、灵活性和兼容性上较优,而NSA在精细化、硬件友好性和端到端训练能力上较强。”创新奇智CTO张发恩告诉记者。
“底层模型一次重大迭代对产品带来的优化效果,远超在工程实现层面对产品‘雕花’。”MiniMax副总裁刘华对记者表示。
而深度求索和月之暗面这场看似巧合的“撞题”,实则是中国大模型初创公司首次集体向AI底层架构发起冲锋:当OpenAI用“暴力计算”碾压赛道时,中国团队正试图用算法手术刀,切开Transformer的“心脏”换上一套中国制造的节拍器。
稠密模型已被放弃
注意力机制,是大语言模型(LLM)的核心机制。2017年6月,那篇开启LLM革命的Trans-former论文的标题就是《Atten-tion Is AllYouNeed(注意力就是你所需要的一切)》,而这篇论文被引用次数至今已达15.3万。
注意力机制之所以重要,是因为它能让AI模型像人一样,知道在处理信息时该如何取舍,才能抓住信息中关键的部分。在大模型的训练阶段和推理阶段,注意力机制都会发挥作用。
不过,当大模型要处理的上下文越来越长,标准Transformer采用的Full Attention(全注意力机制)对计算资源的占用就会越严重。以看书为例,假如让模型看《红楼梦》,传统的“全注意力机制”会阅读文本里的每个词,并拿它与其他所有词作比较,导致文本越长,计算量就会爆炸式增长。
正如月之暗面在MoBA论文的摘要部分所写:“传统注意力机制中固有的计算复杂性的平方增加,带来令人望而却步的计算开销。”于是,如何找到一个既没那么占用计算资源和内存,又不损失模型性能的注意力机制优化方法,成为大模型研究的重要课题。
据悉,MoBA的灵感来源于混合专家网络(MoE,Mixture of Experts)和稀疏注意力技术。前者主要应用于Transformer架构中的前馈网络(FFN)层,而后者被广泛用于扩展Transformer以处理长上下文。
“MoE的核心思想是将一个复杂的任务分解成多个子任务,每个子任务由一个‘专家’来处理,然后通过一个门控机制(Gat-ing Mechanism)来决定哪个专家负责哪个子任务。”张发恩解释道,在MoBA中,输入序列的Key和Value被分成多个块,每个块可以看作是一个“专家”,每个Que-ry token不再与所有“Key-Value对”计算注意力,而是通过门控机制选择最相关的几个块,只与这些块中的“Key-Value对”计算注意力。
他还做了一个类比,如果把注意力机制比作一个学生(Que-ry)向一群老师(Key-Value)请教问题的过程,那么传统注意力是学生向所有老师提问,每个老师都给出解答,学生综合所有老师的答案。而MoBA的做法是,学生先对所有老师进行初步评估(门控),选出几位最相关的老师(Top-k块),然后只向这几位老师请教,综合他们的答案。
张发恩还表示,月之暗面MoBA的主要贡献在于将MoE引入到注意力机制,具有无缝切换全注意力和稀疏注意力的灵活性,同时实现复杂度较低。
刘华表示,经过两年的发展,以Transformer架构为代表的稠密模型已经被放弃,MoE成为大家共同的选择。而在未来两到三年里,类似GPT-3.5到GPT-4这样的技术突破再发生两次是高度可预期的。
“我们希望有更多的开发者一起探索非Transformer的底层架构,只有非Transformer的底层架构得到大家共识,被更多人应用,将来大模型才能处理越来越多更复杂的任务。”刘华说。
大模型智能“涌现”
虽然月之暗面和深度求索两者都提出稀疏注意力算法以降低计算复杂度并扩展上下文处理能力,但在实现路径上存在显著差异。
据了解,NSA通过动态分层稀疏策略,采用“粗粒度区域筛选—细粒度特征关联”的双阶段机制,首先对输入特征进行空间维度的区域级压缩,进而在筛选出的关键区域内执行细粒度令牌级注意力计算,这种层级化稀疏架构有效平衡了计算效率与特征捕获能力。
根据华泰证券的研报,深度求索的NSA是把KVCache进行了“三层级”(粗层级、细层级、小窗口级)划分,并从中有选择性地舍弃掉一部分,达到“稀疏”效果,提高了效率。
除了优化软件算法,NSA还优化了硬件Kernel,以配合NSA的稀疏Attention,实现更高效的软硬件编排。
和MoBA“化零为整,专家坐镇”的做法相比较,张发恩认为NSA是“层层递进,精益求精”。
如果把注意力机制比作一个人(Query)阅读一本书(Key-Value)的过程,那么传统注意力逐字逐句地阅读整本书,不放过任何细节。“NSA会先快速浏览每个章节的摘要(压缩),再根据摘要的重要性,选择几个关键章节(选择)。然后对于每个句子,仔细阅读其上下文(滑动窗口)。综合摘要、关键章节和上下文信息,形成对整本书的理解(融合)。”张发恩表示。
值得注意的是,深度求索的NSA还是第一个把稀疏注意力用于预训练。为什么之前动态稀疏注意力不能做预训练?因为在预训练的时候会遇到各种各样的困难,主要是它和当前的硬件不是非常地对齐。所以,当前动态稀疏注意力的一些工作,都是主要用来加速推理,而不是从头开始预训练。麻省理工学院(MIT)计算机科学与人工智能实验室在读博士松琳认为,深度求索这篇论文具有开创性,既想在预训练上加速,又想在做推理的时候也加速。
根据NSA和完全Attention机制在不同数据集上的评测,研究人员评估了预训练的NSA模型和全注意力基线模型在涵盖知识、推理和编码能力的综合基准测试套件上的表现。尽管NSA具有稀疏性,但其仍实现了更优的综合性能,在9项指标中有7项超越了包括全注意力在内的所有基线模型。
这表明虽然NSA在较短序列上可能未充分发挥其效率优势,但仍展现出强劲性能。此外,NSA在推理相关基准测试中取得显著提升,说明基于NSA的预训练有助于模型发展专门的注意力机制。这种稀疏注意力预训练机制迫使模型聚焦于最关键的信息,通过过滤无关注意力路径的噪声,潜在地提升了性能。
有趣的是,月之暗面与深度求索曾在2025年春节前同期发布K1.5和R1两个推理模型,此次同期发布论文是两家公司的再次“撞车”。
这充分说明了两位创始人在技术路线上的不谋而合。“DeepSeekR1和Kimi K1.5都指向了ORM based RL,而KimiMoBA和DeepSeekNSA再一次都指向了可以反向传递的learned sparse attention。”清华大学教授章明星分享道。
而这些突破正在改写行业规则——当OpenAI、Meta等海外巨头用天量算力碾压赛道,中国团队则试图用算法创新、工程创新的手术刀打破技术垄断。
2月24日,深度求索迎来开源周,陆续开源FlashMLA、DeepEP、DeepGEMM、DualPipe等代码库。深度求索将成本优势共享给整个AI社区,让更多企业和开发者能够以更低的硬件投入,真正实现了“DS非常省硬件成本,开源出来大家一起省”。记者注意到,国内AI芯片独角兽摩尔线程官宣,已高效完成深度求索开源库FlashMLA和DeepGEMM的适配。
“这对于行业发展都是好消息。”国内一家AI芯片公司的员工如此评价深度求索的开源周。同时,摩尔线程方面也表示:“深度求索低算力需求模型对国产芯片的发展确实是一个重要机遇。国产模型+国产芯片可以形成完整的AI闭环,加速国产AI生态发展进程。”
张发恩表示,现在他为AI大模型所涌现的能力感到亢奋。