近日，小米开源社区发布了MiMo-VL-7B视觉语言模型技术报告，其SFT（监督微调）和RL（强化学习）版本在40多项多模态任务评测中表现惊艳，尤其在复杂推理和GUI交互领域刷新了开源模型记录。本文将深入解析其核心技术方案。

MiMo-VL采用经典的三模块架构：

图：模型架构示意图（来源：技术报告Figure 2）

核心突破：在阶段4注入合成推理数据（含长思维链），使模型在MMMU任务响应长度从680 token跃升至2.5K token，推理深度显著提升。

创新性地融合两类奖励信号：

可验证奖励（RIVR）：
- 数学推理：基于Math-Verify库自动验证
- 目标定位：GIoU计算边界框精度
- 视频时序定位：IoU评估时间片段
人类偏好奖励（RLHF）：
- 构建双语偏好数据集
- 分离训练文本/多模态奖励模型
- 采用Bradley-Terry目标函数

技术优势：通过完全同策略GRPO算法避免传统RL性能饱和问题（见图7对比），实现稳定优化。

基础视觉理解：
- MMMU-val：66.7%（超越Gemma 3 27B）
- CharXiv-RQ：56.5%（领先Qwen2.5-VL 14%）
复杂推理：
- OlympiadBench：59.4%（超越72B模型）
- MathVision：60.4%（较SFT提升2.5%）
GUI交互：
- OSWorld-G：56.1%（超越专用模型UI-TARS）
- 统一动作空间支持跨平台操作（详见表5）
用户体验：
- 开源模型中最高Elo评分
- 接近Claude 3.7 Sonnet水平

图：GUI任务性能对比（来源：技术报告Figure 4）

解密小米MiMo-VL：7B小模型如何实现多模态SOTA性能