近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp,通过引入一种新颖的稀疏注意力机制(DeepSeek Sparse Attention, DSA),在保持模型性能的同时,显著提升了长上下文任务中的训练与推理效率。

什么是 DeepSeek Sparse Attention?

DeepSeek Sparse Attention 主要由两个部分组成:

  1. 闪电索引器(Lightning Indexer)
  2. 细粒度令牌选择机制(Fine-Grained Token Selection)

传统的注意力机制在计算时需要关注序列中所有之前的令牌,导致计算复杂度为 O(L2)O(L2),其中 LL 是序列长度。而 DSA 通过索引器为每个查询令牌筛选出最相关的 kk 个键值令牌,将复杂度降至 O(L⋅k)O(Lk),其中 k≪LkL

具体来说,索引器会为每个查询令牌计算一个“注意力分数”,并只保留分数最高的 kk 个令牌参与后续的注意力计算。这一机制不仅减少了计算量,还保留了模型对关键信息的捕捉能力。

模型训练:从密集到稀疏

DeepSeek-V3.2-Exp 是基于 DeepSeek-V3.1-Terminus 继续训练得到的。训练过程分为两个阶段:

  1. 密集预热阶段:仅训练索引器,保持其余参数不变,使其输出的分数分布与原始注意力分布对齐。
  2. 稀疏训练阶段:引入令牌选择机制,同时优化索引器和主模型参数,使模型适应稀疏注意力模式。

整个训练过程使用了 128K 长度的上下文数据,总计训练了近千亿令牌。

性能表现:效率提升,性能不降

在多项基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平,甚至在部分任务中有所提升。例如:

  • 通用能力:MMLU-Pro、GPQA 等任务中表现稳定
  • 搜索与代码任务:BrowseComp、Codeforces 等任务中略有提升
  • 数学推理:AIME 2025 中表现更优

更重要的是,在长上下文推理场景中,V3.2-Exp 的推理成本显著降低。图3显示,随着序列长度增加,其推理速度优势愈发明显。

技术细节:MLA 架构下的 DSA 实现

DSA 是基于 DeepSeek 自研的 MLA(Multi-head Latent Attention)架构实现的,特别采用了 MQA(Multi-Query Attention)模式,使得每个键值条目可以被多个查询头共享,进一步提升计算效率。

未来展望

尽管内部测试结果令人鼓舞,DeepSeek-AI 仍在积极推进在真实场景中的大规模测试,以进一步验证稀疏注意力架构的鲁棒性与实用性。

小结

DeepSeek-V3.2-Exp 的发布,不仅展示了一种高效的长上下文处理方案,也为大模型在保持性能的同时降低计算成本提供了新的思路。如果你对技术细节感兴趣,可以访问其开源实现:


希望这篇博客能帮助你理解 DeepSeek-V3.2-Exp 的核心价值与技术亮点。如果你有更多问题,欢迎继续提问!附该技术报告英中对照版,仅供学习参考:

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注