Qwen2.5-VL Technical Report

TL;DR

2025 年阿里通义实验室发布的 Qwen2.5-VL 技术报告。增强了文档解析、图片视频理解能力，加入了目标定位等精细化感知能力，评测结果基本上能对齐或超过当前最优的 VLM 模型。

Paper name
Qwen2.5-VL Technical Report

Paper Reading Note

Paper URL:

https://arxiv.org/pdf/2502.13923

Code URL:

https://github.com/QwenLM/Qwen2.5-VL

Introduction

背景

尽管多模态大语言模型取得了显著进步，但当前模型的能力仍类似于夹心饼干的中间层——能够胜任多种任务，但在卓越性能方面仍有不足。
- 计算复杂度高、上下文理解能力有限、精细化视觉感知不足，以及在不同序列长度上的表现不一致
- 其中，精细化视觉任务可类比为底层基础。
本次 Qwen2.5-VL 版本的重点在于探索精细化感知能力，旨在构建坚实的 LVLMs 基础，并在现实应用场景中发挥代理增强作用。

本文方案

介绍了 Qwen2.5-VL，在多个基准测试中达到甚至超越了顶级闭源模型
- 在视觉编码器中实现窗口注意力（Window Attention），优化推理效率
- 引入动态 FPS 采样，将动态分辨率扩展至时间维度，实现对不同采样率视频的全面理解
- 在时间域升级 MRoPE，并对齐至绝对时间，以促进更复杂的时间序列学习
- 在数据筛选方面做出重大努力，在预训练和监督微调中使用高质量数据，并将预训练语料规模从 1.2 万亿 tokens 扩展至 4.1 万亿 tokens
Qwen2.5-VL 的核心特性
- 强大的文档解析能力：Qwen2.5-VL 将文本识别升级为全方位文档解析，擅长处理多场景、多语言以及各类内嵌信息（手写文本、表格、图表、化学公式、乐谱等）的文档。
- 精准的跨格式目标定位：Qwen2.5-VL 提供更高精度的目标检测、指点与计数能力，并支持绝对坐标和 JSON 格式，增强其空间推理能力。
- 超长视频理解与精细化视频定位：该模型将原生动态分辨率扩展至时间维度，能够理解长达数小时的视频，并以秒级精度提取事件片段。
- 增强的计算机与移动设备代理功能：借助先进的目标定位、推理和决策能力，该模型在智能手机和计算机端展现更强的代理执行能力。

Methods

模型架构

三个组件
- 大语言模型：
  - 加载 Qwen2.5 LLM 预训练权重
  - 将一维旋转位置编码（1D RoPE, Rotary Position Embedding）修改为对齐绝对时间的多模态旋转位置编码（MRoPE）
- 视觉编码器：
  - 重新设计的 Vision Transformer（ViT）架构，结合 2D-RoPE 和窗口注意力（window attention），以支持原生输入分辨率并提升计算效率
  - 在训练和推理过程中，输入图像的高度和宽度被调整为 28 的倍数后输入 ViT。视觉编码器通过以 14 的步幅（stride）划分图像为小块（patch），提取图像特征
- 基于 MLP 的视觉-语言合并模块（MLP-based Vision-Language Merger）
  - 压缩图像特征序列：将空间上相邻的四个 patch 进行分组，然后将这些特征拼接后通过两层多层感知机（MLP），将其投影至与 LLM 文字嵌入对齐的维度

在这里插入图片描述

模型配置

视觉编码器

窗口注意力（Window Attention）优化计算复杂度
- 由于处理不同大小的图像时计算复杂度呈二次方增长（quadratic complexity），我们在大多数层中引入了窗口注意力机制，使计算开销随着 patch 数量呈线性增长，而非二次增长。
  - 仅有 4 层采用完整的自注意力（self-attention），其余层均采用窗口注意力，最大窗口尺寸为 112×112（即 8×8 patches）。
  - 小于 112×112 的区域无需填充（padding），保持原始分辨率。
2D 旋转位置编码（2D-RoPE）提升空间理解能力
3D Patch 处理提高视频处理能力
- 静态图像采用 14×14 patches。
- 视频数据将连续两帧合并为一个基本单位，减少输入 LLM 的 token 数量，提高视频处理效率
对齐 LLM 架构，提高视觉-语言兼容性
- 归一化方法采用 RMSNorm
- 激活函数采用 SwiGLU
训练过程
- CLIP 预训练
- 视觉-语言对齐
- 端到端微调
数据使用动态采样策略，使模型适应不同分辨率的输入
- 基于原始的 aspect ratio 进行采样

原生动态分辨率与帧率

在以下两个维度上进行改进

空间维度（Spatial Domain）
- 传统方法通常对坐标进行归一化，而 Qwen2.5-VL 直接使用输入图像的实际尺寸表示边界框、关键点等空间特征
- 该方法使模型能够学习尺度信息，在不同分辨率下都能保持较强的处理能力
时间维度（Temporal Domain）
- 动态帧率（Dynamic FPS）训练，适应不同帧率的视频，提高时间信息捕捉能力
- 绝对时间编码（Absolute Time Encoding），在 MRoPE 位置编码中引入时间 ID，直接与时间戳对齐，而不需要额外的计算开销

对齐绝对时间的多模态旋转位置编码（Multimodal Rotary Position Embedding Aligned to Absolute Time）

Qwen2.5-VL 在前代 Qwen2-VL 的 MRoPE 旋转位置编码基础上，进一步优化以更好地处理视频中的时间信息
MRoPE 位置编码由三部分组成
- 时间维度（Temporal）
- 高度维度（Height）
- 宽度维度（Width）
不同输入的统一：
- 文本输入：这三个维度共享相同的位置 ID，使其等效于传统 1D RoPE
- 图像输入：时间 ID 在整个视觉 token 序列中保持一致，而高度和宽度的 ID 则依据其在图像中的空间位置分配。
- 视频输入：视频被视为一系列帧，时间 ID 随帧数递增，而高度和宽度的 ID 仍然基于每个 token 在图像中的空间位置分配。
时间对齐优化（Temporal Alignment Improvement）
- 传统 MRoPE 的时间 ID 仅与输入帧数相关，没有考虑内容变化速度或事件的绝对时间
- Qwen2.5-VL 关键改进：将时间 ID 对齐至绝对时间，模型通过时间维度 ID 之间的间隔学习一致的时间对齐方式，从而适应不同的 FPS 采样率，提高对视频时序信息的理解能力

预训练

数据

相较于 Qwen2-VL，我们大幅扩展了预训练数据的规模，从 1.2 万亿 tokens 增加到约 4 万亿 tokens
数据集涵盖了多种多模态数据类型，包括：
- 图像字幕（image captions）
- 交错图文数据（interleaved image-text data）
  - 支持上下文学习，提供同时包含视觉和文本信息的训练样本
  - 即使缺少图像输入，也能保持强大的文本处理能力
  - 涵盖丰富的通用知识，提升模型的知识泛化能力
- OCR 文字识别数据
  - 合成数据（Synthetic Data）
  - 开源数据（Open-Sourced Data）
  - 内部采集数据（In-House Collected Data）
- 视觉知识（名人、地标、动植物识别等）
- 多模态学术问答
- 目标定位数据
  - 使用绝对坐标表示目标
- 文档解析数据
  - 采用统一的文档解析架构，所有文档元素均统一采用 HTML 格式表示，包含布局信息、插图描述、文本坐标等
- 视频描述与视频定位
  - 动态采样不同帧率（FPS）
  - 视频目标定位采用秒级（second-based）与 hmsf（时-分-秒-帧）格式标注时间戳
- 智能代理交互数据
  - 收集了来自移动端、网页端、桌面端的界面截图，并通过合成数据引擎生成：
  - 界面描述（Screenshot Captions）
  - UI 元素标注（UI Element Grounding）

训练策略

从零开始训练 Vision Transformer (ViT)，使用 DataComp 和内部数据集对视觉编码器进行初始化
第一阶段：单独训练 Vision Transformer (ViT)
- 目标：提高 ViT 与 LLM 的对齐能力，为多模态理解奠定基础。
- 主要数据来源：
  图像字幕（Image Captions）
  视觉知识（Visual Knowledge）
  OCR 数据
- 该阶段训练重点在于让 ViT 具备提取高质量视觉特征的能力，以便与文本信息进行有效结合。
第二阶段：解冻所有参数，训练完整多模态模型
- 目标：增强模型处理复杂视觉信息的能力。
- 主要数据来源：
  交错图文数据（Interleaved Image-Text Data）
  多任务学习数据（Multi-Task Learning Datasets）
  视觉问答（VQA）
  多模态数学（Multimodal Mathematics）
  智能代理任务（Agent-Based Tasks）
  视频理解（Video Understanding）
  纯文本数据（Pure-Text Datasets）
- 该阶段引入更复杂的数据，以强化视觉与语言之间的深度关联，提高模型的推理能力。
第三阶段：增强长序列推理能力
- 目标：提升模型在长视频理解和智能代理任务中的表现，并扩大模型处理的序列长度。
- 主要数据来源：
  视频数据（Video Data）
  智能代理数据（Agent-Based Data）
- 训练方法：
  - 增加序列长度至 32,768 tokens，使模型能够处理更长的上下文信息。
  - 增强对长依赖任务的处理能力，例如视频分析和跨帧推理。

在这里插入图片描述

动态数据打包策略（Dynamic Data Packing）来优化计算效率，均衡不同 GPU 上的计算负载

训练后优化（Post-training）

Qwen2.5-VL 的训练后对齐框架采用双阶段优化策略，包括：

监督微调（Supervised Fine-Tuning, SFT）
直接偏好优化（Direct Preference Optimization, DPO）

指令数据（Instruction Data）

构建了一个约 200 万条指令数据集，用于提升模型在多种模态下的指令跟随能力：

50% 纯文本数据
50% 多模态数据（图文、视频-文本组合）
多领域任务
视觉问答（VQA）
图像字幕生成（Image Captioning）
数学解题（Mathematical Problem-Solving）
编程任务（Coding Tasks）
安全相关问题（Security-Related Queries）
文档解析（Doc & OCR）
目标定位（Grounding）
视频分析（Video Analysis）
智能代理交互（Agent Interactions）

训练策略

监督微调（SFT）
- 冻结 Vision Transformer (ViT) 参数。
- 训练数据包括：
  图文对（Image-Text Pairs）
  视频数据
  纯文本数据
- 目标：优化跨模态任务的执行能力。
直接偏好优化（DPO）
- 仅使用图文和纯文本数据。
- 采用偏好数据，对齐模型输出与人类偏好。
- 每个样本仅处理一次，以提高优化效率。

Experiments

与 SOTA 模型对比，数学上很强，通用 VQA 大部分也达到最高精度
纯文本评测也表现出色
OCR 效果也很好，在 CC-OCR、OmniDocBench 上刷新 SOTA 记录
视觉定位、计数能力也很强
视频理解与定位
- LVBench、MLVU（长视频理解）：
  - Qwen2.5-VL-72B 显著超越 GPT-4o
- Charades-STA（视频事件定位）：
  - mIoU 50.9，超过 GPT-4o
- 视频最大处理帧数：
  - 最高 768 帧
  - 最大视频 token 24,576
agent 能力，包括 UI 元素定位、android 控制等任务