一、从“答得好”到“做得成”：Kimi K2 的产品观跃迁

过去两年，大模型的竞争主线是知识密度（同等参数下答得更准）。Kimi K2 第一次把竞争焦点转向行动密度——在 32 B 激活 / 1 T 总参数的 MoE 架构里，用一套系统化的“数据-训练-推理”方案，让模型不仅能答，还能有计划地调用工具、写代码、发邮件、订机票。官方用一句话总结：Open Agentic Intelligence。

二、模型规格：把“巨无霸”剪成“灵巧手”

表格

维度	数值	备注
总参数	1.06 T	MoE，每 token 激活 32 B
预训练语料	15.5 T tokens	中英为主，含代码、工具 log、RL 自生成数据
上下文	8 k-16 k（eval 上限）	架构级优化（下文详述）
开源形态	Kimi-K2-Base / Instruct	Apache-2.0，可商用

注：Kimi K2 把自己定位在“非 thinking 模型”赛道，对标 DeepSeek-V3、Qwen3-235B-A22B，主打低延迟 + 工具调用。

三、训练黑科技：MuonClip——让注意力 logit 不爆炸

训练 1 T 参数的 MoE，核心难点是稳定性。Kimi 团队之前在 Moonlight 项目中用 Muon 优化器替换 AdamW，显著提升了 token 效率；但 Muon 在大规模场景下容易出现 attention logit 爆炸。

MuonClip = Muon + qk-clip

每次更新后，直接对 Query / Key 权重矩阵做 rescaling：
qi←ηαWqxi,ki←η1−αWkxi
自适应系数 η 取当前 step 的最大 logit 的倒数（带截断），从源头压制 logit 幅度。
实验结果：15.5 T tokens 全程 零 loss spike，下游任务不掉点。

一句话总结：把梯度裁剪从“事后救火”变成“事前防水”。

四、数据炼金术：Agentic 数据的“三位一体”

要让模型“动手”，必须喂它可验证、可交互、可泛化的 agent 数据。Kimi 搭了一套 ACEBench-style pipeline：

Domain Factory
- 数百个垂直域（电商、航空、电信、DevOps…）
- 每个域 1k+ 工具（真实 MCP + 合成）
Agent Arena
- 多智能体仿真：Tool-Simulator ↔ User-Agent ↔ Kimi-Agent
- 任务全部用可执行 rubrics 打分（pass/fail 可验证）
RL Judge
- 先用可验证任务（数学、代码）更新“自评判”模型
- 再用更新后的 Judge 给非验证任务（写报告、做规划）打分，实现可扩展的自举 RL

最终产出 千万级高质量 agent 轨迹，成为 K2 后训练阶段的主力军。

五、硬核 Benchmark：把 SWE-bench 打成“入门题”

以下均为 单 attempt、无 test-time compute 的裸模成绩：

表格

任务	Kimi-K2-Instruct	DeepSeek-V3	Qwen3-235B
SWE-bench Verified	51.8 %	36.6 %	39.4 %
LiveCodeBench v6	53.7 %	46.9 %	37.0 %
AIME 2025	49.5 %	46.7 %	24.7 %
Tau2-Airline	56.5 %	39.0 %	26.5 %

问题	临时 workaround	路线图
复杂推理长度过长 → 截断	用 agent 框架多轮拆解	引入 thinking mode
工具误调用 → 性能下降	禁用工具或重写描述	强化工具 schema 理解
单轮写大项目 → 掉点	用 agent 循环迭代	多模态 + 视觉

深度解析Kimi K2：当 1T 参数不再只是“大”，而是“能动手”的开放智能体

作者52nlp

一、从“答得好”到“做得成”：Kimi K2 的产品观跃迁

二、模型规格：把“巨无霸”剪成“灵巧手”

三、训练黑科技：MuonClip——让注意力 logit 不爆炸

四、数据炼金术：Agentic 数据的“三位一体”

五、硬核 Benchmark：把 SWE-bench 打成“入门题”

六、本地部署：一张 80G 卡即可跑 32 B 激活

七、已知局限 & 下一步

八、开发者上手 30 秒

九、写在最后

作者 52nlp

相关文章

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

一、从“答得好”到“做得成”：Kimi K2 的产品观跃迁

二、模型规格：把“巨无霸”剪成“灵巧手”

三、训练黑科技：MuonClip——让注意力 logit 不爆炸

四、数据炼金术：Agentic 数据的“三位一体”

五、硬核 Benchmark：把 SWE-bench 打成“入门题”

六、本地部署：一张 80G 卡即可跑 32 B 激活

七、已知局限 & 下一步

八、开发者上手 30 秒

九、写在最后

相关文章：

作者 52nlp

相关文章

发表回复

You missed