近日，美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告，这是一款总参数量达 5600亿 的混合专家模型（Mixture-of-Experts, MoE），在保持高性能的同时，显著提升了训练与推理效率，尤其擅长处理需要多步推理和工具调用的智能体（Agent）任务。

一、核心创新：动态计算与通信优化

1. Zero-Computation Experts（零计算专家）

传统MoE模型中，每个token都会激活固定数量的专家，但LongCat-Flash引入了“零计算专家”机制，允许模型根据上下文重要性动态分配计算资源。简单来说，重要的token会激活更多专家，不重要的则激活较少甚至零计算专家，直接返回输入值，不进行额外计算。

每token激活参数量在 186亿~313亿 之间波动，平均约为 270亿；
通过PID控制器动态调节专家偏置，保持计算负载均衡；
在相同计算预算下，相比固定激活策略，验证损失显著降低。

2. Shortcut-Connected MoE（快捷连接MoE）

MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构，通过跨层快捷连接，将密集FFN计算与MoE层的通信操作重叠执行，大幅提升训练和推理效率。

训练损失与基线模型几乎一致，不影响模型质量；
推理时采用单批次重叠（SBO）调度，理论时间每输出token（TPOT）降低近50%。

二、训练策略：高效扩展与稳定性保障

1. 超参数迁移与模型增长

通过宽度缩放规则，将小模型（宽度768）的最佳超参数迁移到大模型（宽度6144），大幅节省调参成本；
采用模型增长初始化，将训练好的半规模模型堆叠成完整模型，加速收敛并提升最终性能。

2. 多维度稳定性控制

路由器稳定性：监控专家权重相似度和梯度范数比，防止负载均衡损失压制语言建模损失；
激活稳定性：引入隐藏z-loss，抑制异常大幅激活，避免训练中的数值溢出；
优化器稳定性：将Adam的ε设为极小的1e-16，避免梯度二阶矩被淹没。

三、多阶段训练与数据策略

1. 预训练阶段

使用超过20万亿token的多语料数据，涵盖网页、书籍、代码等；
采用两阶段数据混合策略，逐步提升STEM和代码数据的比例至70%；
支持128K长上下文，适用于长文档理解和代码库级任务。

2. 中训练与后训练

中训练：增强推理与代码能力，使用合成数据和知识图谱构建高质量问题；
后训练：针对智能体任务，构建多智能体合成框架，生成高难度、多轮交互的任务数据；
涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。

四、推理与部署：高吞吐、低延迟

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

作者52nlp

一、核心创新：动态计算与通信优化

1. Zero-Computation Experts（零计算专家）

2. Shortcut-Connected MoE（快捷连接MoE）

二、训练策略：高效扩展与稳定性保障

1. 超参数迁移与模型增长

2. 多维度稳定性控制

三、多阶段训练与数据策略

1. 预训练阶段

2. 中训练与后训练

四、推理与部署：高吞吐、低延迟

1. 系统级优化

2. 实测性能

五、综合评测结果

六、开源与社区贡献

结语

作者 52nlp

相关文章

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

一、核心创新：动态计算与通信优化

1. Zero-Computation Experts（零计算专家）

2. Shortcut-Connected MoE（快捷连接MoE）

二、训练策略：高效扩展与稳定性保障

1. 超参数迁移与模型增长

2. 多维度稳定性控制

三、多阶段训练与数据策略

1. 预训练阶段

2. 中训练与后训练

四、推理与部署：高吞吐、低延迟

1. 系统级优化

2. 实测性能

五、综合评测结果

六、开源与社区贡献

结语

相关文章：

作者 52nlp

相关文章

发表回复

You missed