近日,小米开源社区发布了MiMo-VL-7B视觉语言模型技术报告,其SFT(监督微调)和RL(强化学习)版本在40多项多模态任务评测中表现惊艳,尤其在复杂推理和GUI交互领域刷新了开源模型记录。本文将深入解析其核心技术方案。


一、核心架构设计

MiMo-VL采用经典的三模块架构:

  1. 视觉编码器:基于Qwen2.5-ViT,支持原生分辨率输入保留细节
  2. 跨模态投影层:MLP结构实现视觉-语言特征对齐
  3. 语言模型:小米自研MiMo-7B基础模型,专为复杂推理优化


图:模型架构示意图(来源:技术报告Figure 2)


二、四阶段预训练策略(2.4万亿Token)

阶段目标关键数据序列长度
1投影层预热图文对8K
2视觉-语言对齐图文交错数据8K
3多模态预训练OCR/视频/GUI/推理数据8K
4长上下文SFT高分辨率图像/长文档/长推理链32K

核心突破:在阶段4注入合成推理数据(含长思维链),使模型在MMMU任务响应长度从680 token跃升至2.5K token,推理深度显著提升。


三、混合强化学习(MORL)

创新性地融合两类奖励信号:

  1. 可验证奖励(RIVR)
    • 数学推理:基于Math-Verify库自动验证
    • 目标定位:GIoU计算边界框精度
    • 视频时序定位:IoU评估时间片段
  2. 人类偏好奖励(RLHF)
    • 构建双语偏好数据集
    • 分离训练文本/多模态奖励模型
    • 采用Bradley-Terry目标函数

技术优势:通过完全同策略GRPO算法避免传统RL性能饱和问题(见图7对比),实现稳定优化。


四、性能突破

  1. 基础视觉理解
    • MMMU-val:66.7%(超越Gemma 3 27B)
    • CharXiv-RQ:56.5%(领先Qwen2.5-VL 14%)
  2. 复杂推理
    • OlympiadBench:59.4%(超越72B模型)
    • MathVision:60.4%(较SFT提升2.5%)
  3. GUI交互
    • OSWorld-G:56.1%(超越专用模型UI-TARS
    • 统一动作空间支持跨平台操作(详见表5)
  4. 用户体验
    • 开源模型中最高Elo评分
    • 接近Claude 3.7 Sonnet水平

图:GUI任务性能对比(来源:技术报告Figure 4)


五、关键洞见

  1. 推理数据前置:预训练后期引入长链合成数据,比微调效果提升显著
  2. 多任务RL冲突:感知任务需简短输出,推理任务需长链思考,优化目标存在张力
  3. 奖励工程挑战:不同任务奖励量纲差异需归一化处理(RaaS服务实现)

六、开源生态

  1. 模型权重:完整开放SFT/RL版本
  2. 评测框架:覆盖50+任务的LMMs-Eval增强版
  3. 数据集:包含GUI动作空间定义等工业级数据

项目地址:https://github.com/XiaomiMiMo/MiMo-VL


结语

MiMo-VL-7B通过三阶段创新—— 精细数据配比预训练、混合奖励强化学习、工业场景专项优化,证明了小模型在复杂多模态任务上的巨大潜力。其在STEM问题求解(见图13)、GUI自动化(见图9)、长文档解析等场景的表现,为开源社区提供了新的技术标杆。

附小米MiMo-VL技术报告英中对照版,仅供学习参考:

作者 52nlp

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注