
近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI 最近发布了实验性模型 DeepSeek-V3.2-Exp,通过引入一种新颖的稀疏注意力机制(DeepSeek Sparse Attention, DSA),在保持模型性能的同时,显著提升了长上下文任务中的训练与推理效率。
什么是 DeepSeek Sparse Attention?
DeepSeek Sparse Attention 主要由两个部分组成:
- 闪电索引器(Lightning Indexer)
- 细粒度令牌选择机制(Fine-Grained Token Selection)
传统的注意力机制在计算时需要关注序列中所有之前的令牌,导致计算复杂度为 O(L2)O(L2),其中 LL 是序列长度。而 DSA 通过索引器为每个查询令牌筛选出最相关的 kk 个键值令牌,将复杂度降至 O(L⋅k)O(L⋅k),其中 k≪Lk≪L。
具体来说,索引器会为每个查询令牌计算一个“注意力分数”,并只保留分数最高的 kk 个令牌参与后续的注意力计算。这一机制不仅减少了计算量,还保留了模型对关键信息的捕捉能力。
模型训练:从密集到稀疏
DeepSeek-V3.2-Exp 是基于 DeepSeek-V3.1-Terminus 继续训练得到的。训练过程分为两个阶段:
- 密集预热阶段:仅训练索引器,保持其余参数不变,使其输出的分数分布与原始注意力分布对齐。
- 稀疏训练阶段:引入令牌选择机制,同时优化索引器和主模型参数,使模型适应稀疏注意力模式。
整个训练过程使用了 128K 长度的上下文数据,总计训练了近千亿令牌。
性能表现:效率提升,性能不降
在多项基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平,甚至在部分任务中有所提升。例如:
- 通用能力:MMLU-Pro、GPQA 等任务中表现稳定
- 搜索与代码任务:BrowseComp、Codeforces 等任务中略有提升
- 数学推理:AIME 2025 中表现更优
更重要的是,在长上下文推理场景中,V3.2-Exp 的推理成本显著降低。图3显示,随着序列长度增加,其推理速度优势愈发明显。
技术细节:MLA 架构下的 DSA 实现
DSA 是基于 DeepSeek 自研的 MLA(Multi-head Latent Attention)架构实现的,特别采用了 MQA(Multi-Query Attention)模式,使得每个键值条目可以被多个查询头共享,进一步提升计算效率。
未来展望
尽管内部测试结果令人鼓舞,DeepSeek-AI 仍在积极推进在真实场景中的大规模测试,以进一步验证稀疏注意力架构的鲁棒性与实用性。
小结
DeepSeek-V3.2-Exp 的发布,不仅展示了一种高效的长上下文处理方案,也为大模型在保持性能的同时降低计算成本提供了新的思路。如果你对技术细节感兴趣,可以访问其开源实现:
- 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
- 推理代码:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp/tree/main/inference
希望这篇博客能帮助你理解 DeepSeek-V3.2-Exp 的核心价值与技术亮点。如果你有更多问题,欢迎继续提问!附该技术报告英中对照版,仅供学习参考: