近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 5600亿 的混合专家模型(Mixture-of-Experts, MoE),在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务

一、核心创新:动态计算与通信优化

1. Zero-Computation Experts(零计算专家)

传统MoE模型中,每个token都会激活固定数量的专家,但LongCat-Flash引入了“零计算专家”机制,允许模型根据上下文重要性动态分配计算资源。简单来说,重要的token会激活更多专家,不重要的则激活较少甚至零计算专家,直接返回输入值,不进行额外计算。

  • 每token激活参数量在 186亿~313亿 之间波动,平均约为 270亿
  • 通过PID控制器动态调节专家偏置,保持计算负载均衡;
  • 在相同计算预算下,相比固定激活策略,验证损失显著降低

2. Shortcut-Connected MoE(快捷连接MoE)

MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构,通过跨层快捷连接,将密集FFN计算与MoE层的通信操作重叠执行,大幅提升训练和推理效率。

  • 训练损失与基线模型几乎一致,不影响模型质量
  • 推理时采用单批次重叠(SBO)调度,理论时间每输出token(TPOT)降低近50%。

二、训练策略:高效扩展与稳定性保障

1. 超参数迁移与模型增长

  • 通过宽度缩放规则,将小模型(宽度768)的最佳超参数迁移到大模型(宽度6144),大幅节省调参成本;
  • 采用模型增长初始化,将训练好的半规模模型堆叠成完整模型,加速收敛并提升最终性能。

2. 多维度稳定性控制

  • 路由器稳定性:监控专家权重相似度和梯度范数比,防止负载均衡损失压制语言建模损失;
  • 激活稳定性:引入隐藏z-loss,抑制异常大幅激活,避免训练中的数值溢出;
  • 优化器稳定性:将Adam的ε设为极小的1e-16,避免梯度二阶矩被淹没。

三、多阶段训练与数据策略

1. 预训练阶段

  • 使用超过20万亿token的多语料数据,涵盖网页、书籍、代码等;
  • 采用两阶段数据混合策略,逐步提升STEM和代码数据的比例至70%;
  • 支持128K长上下文,适用于长文档理解和代码库级任务。

2. 中训练与后训练

  • 中训练:增强推理与代码能力,使用合成数据和知识图谱构建高质量问题;
  • 后训练:针对智能体任务,构建多智能体合成框架,生成高难度、多轮交互的任务数据;
  • 涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。

四、推理与部署:高吞吐、低延迟

1. 系统级优化

  • 使用多token预测(MTP) 作为推测解码的草案模型,接受率超90%;
  • 采用分层传输分层量化,减少KV缓存传输开销;
  • 支持FP8量化,在几乎不损失精度的情况下提升吞吐量。

2. 实测性能

  • 在H800上推理速度达 100 token/秒,成本低至 $0.7 / 百万输出token
  • 在终端任务(TerminalBench)上表现优异,得分39.51,排名第二;
  • 在自建智能体评测集VitaBench上取得最高分24.30,展现强大复杂任务处理能力。

五、综合评测结果

LongCat-Flash在多项基准测试中表现优异:

  • 通用能力:MMLU 89.71,CEval 90.44,ArenaHard-V2 86.50;
  • 数学推理:MATH500 96.40,AIME25 61.25;
  • 代码生成:HumanEval+ 65.85,TerminalBench 39.51;
  • 智能体工具使用:τ²-Bench 电信场景73.68,VitaBench 24.30;
  • 安全性:在有害内容、犯罪信息、隐私保护等维度表现突出。

六、开源与社区贡献

LongCat-Flash已全面开源,包括模型权重、推理代码和部分训练数据,推动MoE架构、高效训练与智能体研究的进一步发展。

结语

LongCat-Flash不仅在模型架构上实现创新,更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现,使其成为业界领先的开源MoE模型之一,有望推动AI智能体在真实场景中的广泛应用。

附美团LongCat-Flash模型技术报告英中对照版,仅供学习参考:

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注