核心突破：极简激活的超级大脑

142B总参数 | 14B动态激活（每token激活6个专家+2个共享专家）
性能对标：Qwen2.5-72B、DeepSeek-V3等顶级模型
训练成本仅1/4：11.2T token预训练耗用146万GPU小时（Qwen2.5-72B需612万小时）
推理经济性：单节点8张GPU（40/80GB）即可部署

🔍 MoE架构精要：

128路由专家 + 2共享专家（SwiGLU激活的细粒度FFN）

FP32门控层：保障路由稳定性

无辅助损失负载均衡（借鉴DeepSeek-V2）：动态偏置项调节专家利用率

序列级均衡损失：杜绝单序列内负载倾斜

三大技术支柱撑起SOTA表现

1. 数据工程：11.2T高质量token的炼金术

三阶段处理框架：
- 文档准备：URL过滤+文本提取（优化版trafilatura）
- 规则处理：
  - 行级去重：消除页眉/页脚冗余（保留前5行+后5行的低频内容）
  - 模糊去重：MinHash+LSH实现80%相似度过滤（97.42%召回率）
- 模型处理：
  - 网页分类器：保留文本密集型页面
  - 质量模型：1.5B评分网络筛选高信息密度文本
  - 语义去重：BGE-M3嵌入+KMeans聚类（相似度>0.95剔除）
中英1:1平衡 + 知识类别再平衡：
200类分类器提升百科/科普权重，压缩小说/商品描述占比

2. 训练基础设施：通信与计算的极致优化

1F1B流水线调度：
- 创新性增加预热步骤，实现All-to-All通信与计算重叠
- 内存效率优于DeepSeek的DualPipe方案（牺牲约5%气泡率）
分组GEMM加速：
- Token分块对齐：统一WGMMA指令的Tile粒度
- 性能碾压：H800上比NVIDIA Transformer Engine快14%（前向）/6.7%（反向）

3. 训练策略：稳定性的科学

分段学习率：4k步预热→10T token稳定期（3e-4）→两阶段退火（3e-5→1e-5）
动态批大小：64M → 96M（6T token）→ 128M（8.3T token）
32K上下文扩展：
采用UK策略（UnTie the Knots）——打乱文档分块并训练模型重组，保留短上下文能力

性能实测：以小博大的典范

能力维度	关键指标	dots.11m1表现	对标模型
中文理解	C-Eval (5-shot)	92.8	超Qwen2.5-72B (89.3)
数学推理	AIME24	33.1	逼近DeepSeek-V3 (34.0)
代码生成	HumanEval (Pass@1)	88.4	接近GPT-4o (92.1)
长上下文	RULER-32K	87.7	落后Qwen2.5-72B(92.7)
综合成本	GPU小时/万亿token	13万	Qwen2.5-72B的38%

💡 现象级发现：
数学任务中零样本比少样本强4+分，暗示模型内在推理机制特殊（作者称留待未来研究）

开源革命：透明化训练进程

每1T token发布中间检查点：
首次提供LLM训练动态的完整观测窗口，助力社区研究学习轨迹
全流程开源：
数据处理代码/训练框架/模型权重（HuggingFace & GitHub）

技术启示录

数据质量 > 数据规模：
TxT360对比实验证明——优质网页数据使1.5B小模型性能提升15%+
MoE负载均衡无需代价：
无辅助损失设计验证了“平衡性可不牺牲性能”
系统级创新才是硬道理：
分组GEMM优化带来实质训练加速，算法-硬件协同是关键

🌟 未来方向：

稀疏注意力（GQA/MLA）+ 更稀疏MoE层

人类学习效率模拟：从数据中提取最大化知识密度

结语
dots.llm1用工程严谨性证明：效率与性能可兼得。当业界追逐万亿参数时，它选择让每比特算力发挥极致价值——这或是AGI时代更可持续的路径。

小红书dots.llm1：重新定义MoE效率边界，14B激活参数挑战72B密集模型极限

作者52nlp

核心突破：极简激活的超级大脑

三大技术支柱撑起SOTA表现

1. 数据工程：11.2T高质量token的炼金术

2. 训练基础设施：通信与计算的极致优化

3. 训练策略：稳定性的科学

性能实测：以小博大的典范

开源革命：透明化训练进程

技术启示录

作者 52nlp

相关文章

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

核心突破：极简激活的超级大脑

三大技术支柱撑起SOTA表现

1. 数据工程：11.2T高质量token的炼金术

2. 训练基础设施：通信与计算的极致优化

3. 训练策略：稳定性的科学

性能实测：以小博大的典范

开源革命：透明化训练进程

技术启示录

相关文章：

作者 52nlp

相关文章

发表回复

You missed