无需蒸馏、抛弃SFT，Mistral用纯强化学习在数学与代码推理任务上实现50%性能飞跃

近日，Mistral AI发布了其首个纯强化学习训练的推理模型系列Magistral，并开源24B参数版本Magistral Small。这份技术报告揭示了其革命性的训练框架，不仅挑战了当前主流RLHF范式，更在多语言推理、跨模态泛化等方面带来突破性发现。本文将深入解析其技术脉络。

一、核心创新：纯RL训练框架

与传统RLHF依赖监督微调（SFT）蒸馏不同，Magistral采用完全从零开始的强化学习路径：

基础模型：基于Mistral Medium 3（数学/代码推理）和Small 3（轻量版）
训练方式：仅用强化学习（RL）优化，跳过任何预训练推理轨迹的蒸馏步骤
关键优势：避免教师模型偏差，直接探索模型原生推理能力

性能结果震撼：

Magistral Medium在AIME-24数学竞赛基准上达到73.6% pass@1，较基础模型提升近50%
LiveCodeBench（v5）得分59.4%，提升30%（见表2）

markdown

复制

下载

| 任务            | Mistral Medium 3 | Magistral Medium | 提升幅度 |
|----------------|------------------|-----------------|--------|
| AIME'24 (pass@1) | 26.8%            | 73.6%           | +174%  |
| LiveCodeBench v5 | 29.1%            | 59.4%           | +104%  |

二、算法引擎：深度改造GRPO

Magistral的核心是改进版Group Relative Policy Optimization (GRPO)，包含五大关键创新：

1. KL散度消除

传统PPO/GRPO依赖KL惩罚防止策略偏移
Mistral发现KL计算成本高且效果有限，直接移除KL项
结果：训练速度提升20%，无性能损失

2. 损失归一化设计

原始GRPO存在生成长度偏差
创新方案：按组内总token数归一化损失
Loss = Σ(损失) / Σ(组内token数)
消除长度对梯度的影响

3. 信任域上限放松

放宽ε-clipping上限至ε_high=0.26-0.28
允许模型探索低概率但高价值推理路径
关键作用：防止熵崩溃，提升输出多样性（见图12）

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

作者52nlp

一、核心创新：纯RL训练框架

二、算法引擎：深度改造GRPO

1. KL散度消除

2. 损失归一化设计

3. 信任域上限放松

4. 优势值归一化

5. 非多样性组过滤

三、奖励工程：精准塑造推理行为

1. 格式奖励（0.1分）

2. 正确性奖励（0.9分）

3. 长度惩罚

4. 语言一致性奖励（0.1分）

四、基础设施：异步RL训练系统

五、颠覆性发现

1. RL提升多模态能力

2. 小模型RL训练可行

3. 跨领域泛化

六、重要取舍：无效方案披露

七、开源与影响

作者 52nlp

相关文章

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

一、核心创新：纯RL训练框架

二、算法引擎：深度改造GRPO

1. KL散度消除

2. 损失归一化设计

3. 信任域上限放松

4. 优势值归一化

5. 非多样性组过滤

三、奖励工程：精准塑造推理行为

1. 格式奖励（0.1分）

2. 正确性奖励（0.9分）

3. 长度惩罚

4. 语言一致性奖励（0.1分）

四、基础设施：异步RL训练系统

五、颠覆性发现

1. RL提升多模态能力

2. 小模型RL训练可行

3. 跨领域泛化

六、重要取舍：无效方案披露

七、开源与影响

相关文章：

作者 52nlp

相关文章

发表回复

You missed