
近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 5600亿 的混合专家模型(Mixture-of-Experts, MoE),在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务。
一、核心创新:动态计算与通信优化
1. Zero-Computation Experts(零计算专家)
传统MoE模型中,每个token都会激活固定数量的专家,但LongCat-Flash引入了“零计算专家”机制,允许模型根据上下文重要性动态分配计算资源。简单来说,重要的token会激活更多专家,不重要的则激活较少甚至零计算专家,直接返回输入值,不进行额外计算。
- 每token激活参数量在 186亿~313亿 之间波动,平均约为 270亿;
- 通过PID控制器动态调节专家偏置,保持计算负载均衡;
- 在相同计算预算下,相比固定激活策略,验证损失显著降低。
2. Shortcut-Connected MoE(快捷连接MoE)
MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构,通过跨层快捷连接,将密集FFN计算与MoE层的通信操作重叠执行,大幅提升训练和推理效率。
- 训练损失与基线模型几乎一致,不影响模型质量;
- 推理时采用单批次重叠(SBO)调度,理论时间每输出token(TPOT)降低近50%。
二、训练策略:高效扩展与稳定性保障
1. 超参数迁移与模型增长
- 通过宽度缩放规则,将小模型(宽度768)的最佳超参数迁移到大模型(宽度6144),大幅节省调参成本;
- 采用模型增长初始化,将训练好的半规模模型堆叠成完整模型,加速收敛并提升最终性能。
2. 多维度稳定性控制
- 路由器稳定性:监控专家权重相似度和梯度范数比,防止负载均衡损失压制语言建模损失;
- 激活稳定性:引入隐藏z-loss,抑制异常大幅激活,避免训练中的数值溢出;
- 优化器稳定性:将Adam的ε设为极小的1e-16,避免梯度二阶矩被淹没。
三、多阶段训练与数据策略
1. 预训练阶段
- 使用超过20万亿token的多语料数据,涵盖网页、书籍、代码等;
- 采用两阶段数据混合策略,逐步提升STEM和代码数据的比例至70%;
- 支持128K长上下文,适用于长文档理解和代码库级任务。
2. 中训练与后训练
- 中训练:增强推理与代码能力,使用合成数据和知识图谱构建高质量问题;
- 后训练:针对智能体任务,构建多智能体合成框架,生成高难度、多轮交互的任务数据;
- 涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。
四、推理与部署:高吞吐、低延迟
1. 系统级优化
- 使用多token预测(MTP) 作为推测解码的草案模型,接受率超90%;
- 采用分层传输和分层量化,减少KV缓存传输开销;
- 支持FP8量化,在几乎不损失精度的情况下提升吞吐量。
2. 实测性能
- 在H800上推理速度达 100 token/秒,成本低至 $0.7 / 百万输出token;
- 在终端任务(TerminalBench)上表现优异,得分39.51,排名第二;
- 在自建智能体评测集VitaBench上取得最高分24.30,展现强大复杂任务处理能力。
五、综合评测结果
LongCat-Flash在多项基准测试中表现优异:
- 通用能力:MMLU 89.71,CEval 90.44,ArenaHard-V2 86.50;
- 数学推理:MATH500 96.40,AIME25 61.25;
- 代码生成:HumanEval+ 65.85,TerminalBench 39.51;
- 智能体工具使用:τ²-Bench 电信场景73.68,VitaBench 24.30;
- 安全性:在有害内容、犯罪信息、隐私保护等维度表现突出。
六、开源与社区贡献
LongCat-Flash已全面开源,包括模型权重、推理代码和部分训练数据,推动MoE架构、高效训练与智能体研究的进一步发展。
- 项目地址:https://github.com/meituan-longcat
- Hugging Face:https://huggingface.co/meituan-longcat
- 在线体验:https://longcat.ai
结语
LongCat-Flash不仅在模型架构上实现创新,更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现,使其成为业界领先的开源MoE模型之一,有望推动AI智能体在真实场景中的广泛应用。
附美团LongCat-Flash模型技术报告英中对照版,仅供学习参考: