
在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)、复杂推理(Reasoning) 和编程能力(Coding) 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列,正是以“ARC三位一体”为目标打造的超级模型,以3550亿参数登顶全球开源模型性能前三!
一、核心突破:MoE架构 + 混合推理模式
1. 高能效设计
- 总参数3550亿,激活参数仅320亿(MoE稀疏激活),计算效率提升3倍
- 对比:参数量仅为DeepSeek-V3(6710亿)的一半,Kimi-K2(10430亿)的1/3
- GLM-4.5-Air轻量版:1060亿参数,性能仍超多数百亿级模型
2. 混合推理引擎
markdown
| 推理模式 | 适用场景 | 技术特点 | |--------------|---------------------------|------------------------| | 思考模式 | 数学/科学/多步工具调用 | 长链式思维(CoT) | | 直答模式 | 聊天/翻译/简单问答 | 低延迟响应 |
模型可动态切换模式——复杂问题启动深度思考,简单任务秒级回应,兼顾效率与精度。
二、性能屠榜:ARC三项全能冠军
1. 智能体能力(Agentic)
- TAU-Bench(真实场景工具调用):79.7% 准确率,超越Gemini 2.5 Pro
- BrowseComp(网页信息检索):26.4%,碾压Claude Opus 4 (18.8%)
- 创新函数调用模板:用XML标签替代JSON,减少90%转义字符(见图4)
2. 推理能力(Reasoning)
- AIME 24(国际数学竞赛题):91.0% 正确率,逼近人类奥赛选手水平
- HLE人类终极考试:14.4% 得分,全球仅4个模型超过10%
- 动态温度采样RL:防止强化学习后期陷入局部最优
3. 编程能力(Coding)
- SWE-bench Verified(真实GitHub issue修复):64.2% 通过率
- Terminal-Bench(终端操作):37.5%,超越Claude Sonnet 4
- CC-Bench实测:工具调用成功率90.6%,碾压Qwen3-Coder(77.1%)
🔥 综合ARC 12项基准:全球排名第3(开源第1),智能体单项排名第2!
三、训练黑科技:三阶段锻造ARC铁三角
1. 预训练数据革命
- 23T高质量Token,分层处理网页/代码/学术数据
- 创新过滤技术:
- SemDedup:语义去重剔除模板网页
- 质量分桶:高分数据重复3.2个epoch,强化核心知识
2. 中训练(Mid-Training)
- 128K上下文支持:从4K→128K分阶段扩展,RoPE频率调整至100万
- 跨文件代码训练:拼接同仓库代码文件,学习项目级依赖
3. 后训练专家蒸馏
python
# 专家迭代流程 1. 分领域训练专家模型:推理专家 + 智能体专家 + 通用聊天专家 2. 自我蒸馏融合:将专家能力注入统一模型 3. 混合强化学习: - 推理RL:难度分级课程(先易后难) - 智能体RL:轨迹自蒸馏迭代 - 病理RL:根治语言混合/格式错误
四、真实场景碾压性体验
1. 逻辑推理
- 新构建高难度逻辑题库:62.0分,持平DeepSeek-R1(62.1)
- 动态规划/归纳推理错误率降低37%
2. 颠覆级翻译能力
- 理解网络梗+文化符号:如“yyds”→“永远的神”
- 上下文推理:输入:“三花公主驾到,速来围观”
输出:“The Calico Princess has arrived! Come and see!”
(准确识别“三花”指三花猫) - 人类评分1.71,碾压专业翻译模型Qwen-MT(0.38)
3. 终端编程实测
- 在Docker隔离环境测试52个开发任务:
- VS Claude Sonnet 4:40.4%胜率 + 50%平局
- VS Kimi K2:53.9%胜率,工具调用效率高4.4%
五、开源意义:中国大模型的新里程碑
- 模型全开源:HuggingFace、BigModel.cn、GitHub同步发布
- 评测工具包:https://github.com/zai-org/glm-simple-evals
- 免费商用:支持128K上下文,可部署于消费级显卡集群
💡 开发者提示:轻量版GLM-4.5-Air在106B参数下实现接近GPT-4的性能,推理成本降低60%!
结语:ARC时代的新王者
GLM-4.5不仅证明了中国团队在MoE架构和强化学习领域的顶尖实力,更首次实现智能体-推理-编程三大能力的统一。其开源将加速AI智能体的实际落地——从自动代码修复到网页信息挖掘,一个真正“会思考、能执行”的AI时代正在到来。
项目地址:https://github.com/zai-org/GLM-4.5
在线体验:https://z.ai (支持128K上下文对话)
延伸阅读:报告中隐藏的4大技术彩蛋👇
- 推理RL黑科技:Token加权损失函数,比序列级loss收敛快2倍
- 长轨迹智能体训练:异步RL框架Slime,支持Docker环境高并发
- 安全防护:SafetyBench综合得分89.9,伦理类问题94.3分
- 中文场景优化:文本生成得分9.0,逻辑推理9.27(满分10)
本文数据均来自GLM-4.5技术报告,更多技术细节参见原始论文,附英中技术报告对照版,仅供学习参考: