核心突破:极简激活的超级大脑

  • 142B总参数 | 14B动态激活(每token激活6个专家+2个共享专家)
  • 性能对标:Qwen2.5-72B、DeepSeek-V3等顶级模型
  • 训练成本仅1/4:11.2T token预训练耗用146万GPU小时(Qwen2.5-72B需612万小时)
  • 推理经济性:单节点8张GPU(40/80GB)即可部署

🔍 MoE架构精要

  • 128路由专家 + 2共享专家(SwiGLU激活的细粒度FFN)
  • FP32门控层:保障路由稳定性
  • 无辅助损失负载均衡(借鉴DeepSeek-V2):动态偏置项调节专家利用率
  • 序列级均衡损失:杜绝单序列内负载倾斜

三大技术支柱撑起SOTA表现

1. 数据工程:11.2T高质量token的炼金术
  • 三阶段处理框架
    • 文档准备:URL过滤+文本提取(优化版trafilatura)
    • 规则处理
      • 行级去重:消除页眉/页脚冗余(保留前5行+后5行的低频内容)
      • 模糊去重:MinHash+LSH实现80%相似度过滤(97.42%召回率)
    • 模型处理
      • 网页分类器:保留文本密集型页面
      • 质量模型:1.5B评分网络筛选高信息密度文本
      • 语义去重:BGE-M3嵌入+KMeans聚类(相似度>0.95剔除)
  • 中英1:1平衡 + 知识类别再平衡
    200类分类器提升百科/科普权重,压缩小说/商品描述占比
2. 训练基础设施:通信与计算的极致优化
  • 1F1B流水线调度
    • 创新性增加预热步骤,实现All-to-All通信与计算重叠
    • 内存效率优于DeepSeek的DualPipe方案(牺牲约5%气泡率)
  • 分组GEMM加速
    • Token分块对齐:统一WGMMA指令的Tile粒度
    • 性能碾压:H800上比NVIDIA Transformer Engine快14%(前向)/6.7%(反向)
3. 训练策略:稳定性的科学
  • 分段学习率:4k步预热→10T token稳定期(3e-4)→两阶段退火(3e-5→1e-5)
  • 动态批大小:64M → 96M(6T token)→ 128M(8.3T token)
  • 32K上下文扩展
    采用UK策略(UnTie the Knots)——打乱文档分块并训练模型重组,保留短上下文能力

性能实测:以小博大的典范

能力维度关键指标dots.11m1表现对标模型
中文理解C-Eval (5-shot)92.8超Qwen2.5-72B (89.3)
数学推理AIME2433.1逼近DeepSeek-V3 (34.0)
代码生成HumanEval (Pass@1)88.4接近GPT-4o (92.1)
长上下文RULER-32K87.7落后Qwen2.5-72B(92.7)
综合成本GPU小时/万亿token13万Qwen2.5-72B的38%

💡 现象级发现
数学任务中零样本比少样本强4+分,暗示模型内在推理机制特殊(作者称留待未来研究)


开源革命:透明化训练进程

  • 每1T token发布中间检查点
    首次提供LLM训练动态的完整观测窗口,助力社区研究学习轨迹
  • 全流程开源
    数据处理代码/训练框架/模型权重(HuggingFace & GitHub)

技术启示录

  1. 数据质量 > 数据规模
    TxT360对比实验证明——优质网页数据使1.5B小模型性能提升15%+
  2. MoE负载均衡无需代价
    无辅助损失设计验证了“平衡性可不牺牲性能”
  3. 系统级创新才是硬道理
    分组GEMM优化带来实质训练加速,算法-硬件协同是关键

🌟 未来方向

  • 稀疏注意力(GQA/MLA)+ 更稀疏MoE层
  • 人类学习效率模拟:从数据中提取最大化知识密度

结语
dots.llm1用工程严谨性证明:效率与性能可兼得。当业界追逐万亿参数时,它选择让每比特算力发挥极致价值——这或是AGI时代更可持续的路径。

附小红书dots.llm1技术报告英中对照版,仅供学习参考:

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注