1. 引言：为什么 K2 值得关注？

过去两年，大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力（Agentic Intelligence）」。
Kimi K2 用一份 32 页的技术报告告诉我们：开源模型第一次在「非思考」条件下，同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列。
更重要的是，K2 用一套完全开源的权重 + 数据管线 + RL 框架，把「智能体」这件事做到了可复现、可扩展、可落地。

2. 模型概览：一图看懂 K2 的「身材」

维度	K2	DeepSeek-V3	Llama4-Maverick
总参数	1.04 T (MoE)	671 B (MoE)	400 B (MoE)
激活参数	32 B	37 B	17 B
专家数	384	256	-
注意力头	64 (节省 83% FLOPs)	128	128
上下文	128 k	128 k	128 k

一句话总结：在同样 32 B 激活量的前提下，K2 把专家数提升到 384，用更稀疏但更大的「外脑」换来单位 FLOP 的更高收益。

3. 预训练：如何让 15.5 T tokens 发挥 30 T 的价值？

3.1 MuonClip：让 Muon 优化器告别“爆炸”

痛点：Muon 比 AdamW token-efficient，但 attention logit 容易爆炸到 1000+，导致 loss spike。
解法：提出 QK-Clip —— 每 head 实时检测 logit 最大值，仅在必要时对 Query/Key 权重做 per-head 的轻量级缩放。
效果：
- 全 15.5 T tokens 零 loss spike；
- 小模型 ablation 显示对收敛几乎无损（<0.1%）。

3.2 数据炼金术：把一条知识变十条

Knowledge 重写管线：
- 风格多样化 prompt → chunk-wise 自回归改写 → 语义一致性校验；
- SimpleQA 实验：10 次改写 + 1 次 epoch 比 10 次重复 epoch 绝对提升 5.2%。
Math 重写管线：
- 引入 SwallowMath 的「学习笔记」格式，把数学证明改写成步骤化讲解；
- 多语言翻译进一步扩量 30%。

结论：在高质量数据见顶的时代，「可控改写」成为新的数据杠杆。

4. 后训练：合成 20 k 工具 + RL 闭环

4.1 超级工具工厂：从 API 文档到可执行沙箱

K2 构建了一个三层合成管线：

Tool Spec 生成
- 3000+ 真实 MCP 工具（GitHub 爬取）
- 20000+ LLM 合成工具，覆盖金融、机器人、软件等 50+ 领域
Agent & Task 生成
- Agent persona 随机采样（性格、知识、可用工具）
- Rubric-based task：每个任务带成功标准、期望调用链
Trajectory 生成与过滤
- 多轮用户模拟 + 沙箱执行
- LLM Judge 打分，保留 success rate > 90% 轨迹
- Hybrid 沙箱：真实 Docker/K8s 环境 + 模拟器，兼顾规模与真实性

最终产出 数十万条 高质量工具调用轨迹，用于 SFT。

4.2 RL 框架：从可验证奖励到自我批判

Verifiable Rewards Gym
- 数学、逻辑、代码、指令遵循等 100+ 任务，全部可自动判题；
- 采用 预算控制：按任务类型设定 max_tokens，防止 RL 把答案写成小说。
Self-Critique Rubric Reward
- 用 K2 自己当裁判， pairwise 比较回答；
- 裁判模型在可验证任务上持续微调，保证主观打分不失焦。
算法细节
- 沿用 K1.5 的 policy gradient，新增：
  - PTX loss：混入高质量预训练数据，防止灾难遗忘；
  - Temperature decay：训练后期降温，提升稳定性。

5. 评估：把「非思考」做到极致

基准	K2	开源 SOTA	闭源标杆
SWE-bench Verified (multi-attempt)	71.6 %	54.6 % (DeepSeek)	80.2 % (Claude-4-Sonnet)
SWE-bench Multilingual	47.3 %	25.8 %	51.0 %
LiveCodeBench v6	53.7 %	46.9 %	48.5 %

从万亿参数到智能体：Kimi K2 技术报告全景解读

作者52nlp

1. 引言：为什么 K2 值得关注？

2. 模型概览：一图看懂 K2 的「身材」

3. 预训练：如何让 15.5 T tokens 发挥 30 T 的价值？

3.1 MuonClip：让 Muon 优化器告别“爆炸”

3.2 数据炼金术：把一条知识变十条

4. 后训练：合成 20 k 工具 + RL 闭环

4.1 超级工具工厂：从 API 文档到可执行沙箱

4.2 RL 框架：从可验证奖励到自我批判

5. 评估：把「非思考」做到极致

5.1 代码与软件工程

5.2 工具调用

5.3 数学 & STEM

5.4 LMSYS Arena 真实用户投票

6. 系统：1 T 模型如何 30 秒热启动？

7. 局限与展望

8. 写给开发者 & 研究者的三点 takeaway

9. 结语

附录：相关链接

作者 52nlp

相关文章

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

1. 引言：为什么 K2 值得关注？

2. 模型概览：一图看懂 K2 的「身材」

3. 预训练：如何让 15.5 T tokens 发挥 30 T 的价值？

3.1 MuonClip：让 Muon 优化器告别“爆炸”

3.2 数据炼金术：把一条知识变十条

4. 后训练：合成 20 k 工具 + RL 闭环

4.1 超级工具工厂：从 API 文档到可执行沙箱

4.2 RL 框架：从可验证奖励到自我批判

5. 评估：把「非思考」做到极致

5.1 代码与软件工程

5.2 工具调用

5.3 数学 & STEM

5.4 LMSYS Arena 真实用户投票

6. 系统：1 T 模型如何 30 秒热启动？

7. 局限与展望

8. 写给开发者 & 研究者的三点 takeaway

9. 结语

附录：相关链接

相关文章：

作者 52nlp

相关文章

发表回复

You missed