在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)复杂推理(Reasoning) 和编程能力(Coding) 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列,正是以“ARC三位一体”为目标打造的超级模型,以3550亿参数登顶全球开源模型性能前三!


一、核心突破:MoE架构 + 混合推理模式

1. 高能效设计

  • 总参数3550亿,激活参数仅320亿(MoE稀疏激活),计算效率提升3倍
  • 对比:参数量仅为DeepSeek-V3(6710亿)的一半,Kimi-K2(10430亿)的1/3
  • GLM-4.5-Air轻量版:1060亿参数,性能仍超多数百亿级模型

2. 混合推理引擎

markdown

| 推理模式     | 适用场景                  | 技术特点               |
|--------------|---------------------------|------------------------|
| 思考模式     | 数学/科学/多步工具调用    | 长链式思维(CoT)      |
| 直答模式     | 聊天/翻译/简单问答        | 低延迟响应             |

模型可动态切换模式——复杂问题启动深度思考,简单任务秒级回应,兼顾效率与精度。


二、性能屠榜:ARC三项全能冠军

1. 智能体能力(Agentic)

  • TAU-Bench(真实场景工具调用):79.7% 准确率,超越Gemini 2.5 Pro
  • BrowseComp(网页信息检索):26.4%,碾压Claude Opus 4 (18.8%)
  • 创新函数调用模板:用XML标签替代JSON,减少90%转义字符(见图4)

2. 推理能力(Reasoning)

  • AIME 24(国际数学竞赛题):91.0% 正确率,逼近人类奥赛选手水平
  • HLE人类终极考试:14.4% 得分,全球仅4个模型超过10%
  • 动态温度采样RL:防止强化学习后期陷入局部最优

3. 编程能力(Coding)

  • SWE-bench Verified(真实GitHub issue修复):64.2% 通过率
  • Terminal-Bench(终端操作):37.5%,超越Claude Sonnet 4
  • CC-Bench实测:工具调用成功率90.6%,碾压Qwen3-Coder(77.1%)

🔥 综合ARC 12项基准:全球排名第3(开源第1),智能体单项排名第2!


三、训练黑科技:三阶段锻造ARC铁三角

1. 预训练数据革命

  • 23T高质量Token,分层处理网页/代码/学术数据
  • 创新过滤技术:
    • SemDedup:语义去重剔除模板网页
    • 质量分桶:高分数据重复3.2个epoch,强化核心知识

2. 中训练(Mid-Training)

  • 128K上下文支持:从4K→128K分阶段扩展,RoPE频率调整至100万
  • 跨文件代码训练:拼接同仓库代码文件,学习项目级依赖

3. 后训练专家蒸馏

python

# 专家迭代流程
1. 分领域训练专家模型:推理专家 + 智能体专家 + 通用聊天专家
2. 自我蒸馏融合:将专家能力注入统一模型
3. 混合强化学习:
   - 推理RL:难度分级课程(先易后难)
   - 智能体RL:轨迹自蒸馏迭代
   - 病理RL:根治语言混合/格式错误

四、真实场景碾压性体验

1. 逻辑推理

  • 新构建高难度逻辑题库:62.0分,持平DeepSeek-R1(62.1)
  • 动态规划/归纳推理错误率降低37%

2. 颠覆级翻译能力

  • 理解网络梗+文化符号:如“yyds”→“永远的神”
  • 上下文推理:输入:“三花公主驾到,速来围观”
    输出:“The Calico Princess has arrived! Come and see!”
    (准确识别“三花”指三花猫)
  • 人类评分1.71,碾压专业翻译模型Qwen-MT(0.38)

3. 终端编程实测

  • Docker隔离环境测试52个开发任务:
    • VS Claude Sonnet 4:40.4%胜率 + 50%平局
    • VS Kimi K2:53.9%胜率,工具调用效率高4.4%

五、开源意义:中国大模型的新里程碑

💡 开发者提示:轻量版GLM-4.5-Air在106B参数下实现接近GPT-4的性能,推理成本降低60%!


结语:ARC时代的新王者

GLM-4.5不仅证明了中国团队在MoE架构和强化学习领域的顶尖实力,更首次实现智能体-推理-编程三大能力的统一。其开源将加速AI智能体的实际落地——从自动代码修复到网页信息挖掘,一个真正“会思考、能执行”的AI时代正在到来。

项目地址https://github.com/zai-org/GLM-4.5
在线体验https://z.ai (支持128K上下文对话)


延伸阅读:报告中隐藏的4大技术彩蛋👇

  1. 推理RL黑科技:Token加权损失函数,比序列级loss收敛快2倍
  2. 长轨迹智能体训练:异步RL框架Slime,支持Docker环境高并发
  3. 安全防护:SafetyBench综合得分89.9,伦理类问题94.3分
  4. 中文场景优化:文本生成得分9.0,逻辑推理9.27(满分10)

本文数据均来自GLM-4.5技术报告,更多技术细节参见原始论文,附英中技术报告对照版,仅供学习参考:

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注