TL;DR
- 2025 年阿里通义实验室发布的 Qwen2.5-VL 技术报告。增强了文档解析、图片视频理解能力,加入了目标定位等精细化感知能力,评测结果基本上能对齐或超过当前最优的 VLM 模型。
Paper name
Qwen2.5-VL Technical Report
Paper Reading Note
Paper URL:
- https://arxiv.org/pdf/2502.13923
Code URL:
- https://github.com/QwenLM/Qwen2.5-VL
Introduction
背景
- 尽管多模态大语言模型取得了显著进步,但当前模型的能力仍类似于夹心饼干的中间层——能够胜任多种任务,但在卓越性能方面仍有不足。
- 计算复杂度高、上下文理解能力有限、精细化视觉感知不足,以及在不同序列长度上的表现不一致
- 其中,精细化视觉任务可类比为底层基础。
- 本次 Qwen2.5-VL 版本的重点在于探索精细化感知能力,旨在构建坚实的 LVLMs 基础,并在现实应用场景中发挥代理增强作用。
本文方案
-
介绍了 Qwen2.5-VL,在多个基准测试中达到甚至超越了顶级闭源模型
- 在视觉编码器中实现窗口注意力(Window Attention),优化推理效率
- 引入动态 FPS 采样,将动态分辨率扩展至时间维度,实现对不同采样率视频的全面理解
- 在时间域升级 MRoPE,并对齐至绝对时间,以促进更复杂的时间序列学习
- 在数据筛选方面做出重大努力,在预训练和监督微调中使用高质量数据,并将预训练语料规模从 1.2 万亿 tokens 扩展至 4.1 万亿 tokens
-
Qwen2.5-VL 的核心特性
- 强大的文档解析能力:Qwen2.5-VL 将文本识别升级为全方位文档解析,擅长处理多场景、多语言以及各类内嵌信息(手写文本、表格、图表、化学公式、乐谱等)的文档。
- 精准的跨格式目标定位:Qwen2.5-VL 提供更高精度的目标检测、指点与计数能力,并支持绝对坐标和 JSON 格式,增强其空间推理能力。
- 超长视频理解与精细化视频定位:该模型将原生动态分辨率扩展至时间维度,能够理解长达数小时的视频,并以秒级精度提取事件片段。
- 增强的计算机与移动设备代理功能:借助先进的目标定位、推理和决策能力,该模型在智能手机和计算机端展现更强的代理执行能力。
Methods
模型架构
- 三个组件
- 大语言模型:
- 加载 Qwen2.5 LLM 预训练权重
- 将一维旋转位置编码(1D RoPE, Rotary Position Embedding)修改为对齐绝对时间的多模态旋转位置编码(MRoPE)
- 视觉编码器:
- 重新设计的 Vision Transformer(ViT)架构,结合 2D-RoPE 和窗口注意力(window attention),以支持原生输入分辨率并提升计算效率
- 在训练和推理过程中,输入图像的高度和宽度被调整为 28 的倍数后输入 ViT。视觉编码器通过以 14 的步幅(stride)划分图像为小块(patch),提取图像特征
- 基于 MLP 的视觉-语言合并模块(MLP-based Vision-Language Merger)
- 压缩图像特征序列:将空间上相邻的四个 patch 进行分组,然后将这些特征拼接后通过两层多层感知机(MLP),将其投影至与 LLM 文字嵌入对齐的维度
- 大语言模型:
- 模型配置
视觉编码器
-
窗口注意力(Window Attention)优化计算复杂度
- 由于处理不同大小的图像时计算复杂度呈二次方增长(quadratic complexity),我们在大多数层中引入了窗口注意力机制,使计算开销随着 patch 数量呈线性增长,而非二次增长。
- 仅有 4 层采用完整的自注意力(self-attention),其余层均采用窗口注意力,最大窗口尺寸为 112×112(即 8×8 patches)。
- 小于 112×112 的区域无需填充(padding),保持原始分辨率。
- 由于处理不同大小的图像时计算复杂度呈二次方增长(quadratic complexity),我们在大多数层中引入了窗口注意力机制,使计算开销随着 patch 数量呈线性增长,而非二次增长。
-
2D 旋转位置编码(2D-RoPE)提升空间理解能力
-
3D Patch 处理提高视频处理能力
- 静态图像采用 14×14 patches。
- 视频数据将连续两帧合并为一个基本单位,减少输入 LLM 的 token 数量,提高视频处理效率
-
对齐 LLM 架构,提高视觉-语言兼容性
- 归一化方法采用 RMSNorm
- 激活函数采用 SwiGLU
-
训练过程
- CLIP 预训练
- 视觉-语言对齐
- 端到端微调
-
数据使用动态采样策略,使模型适应不同分辨率的输入
- 基于原始的 aspect ratio 进行采样
原生动态分辨率与帧率
在以下两个维度上进行改进
- 空间维度(Spatial Domain)
- 传统方法通常对坐标进行归一化,而 Qwen2.5-VL 直接使用输入图像的实际尺寸表示边界框、关键点等空间特征
- 该方法使模型能够学习尺度信息,在不同分辨率下都能保持较强的处理能力
- 时间维度(Temporal Domain)
- 动态帧率(Dynamic FPS)训练,适应不同帧率的视频,提高时间信息捕捉能力
- 绝对时间编码(Absolute Time Encoding),在 MRoPE 位置编码中引入时间 ID,直接与时间戳对齐,而不需要额外的计算开销
对齐绝对时间的多模态旋转位置编码(Multimodal Rotary Position Embedding Aligned to Absolute Time)
- Qwen2.5-VL 在前代 Qwen2-VL 的 MRoPE 旋转位置编码基础上,进一步优化以更好地处理视频中的时间信息
- MRoPE 位置编码由三部分组成
- 时间维度(Temporal)
- 高度维度(Height)
- 宽度维度(Width)
- 不同输入的统一:
- 文本输入:这三个维度共享相同的位置 ID,使其等效于传统 1D RoPE
- 图像输入:时间 ID 在整个视觉 token 序列中保持一致,而高度和宽度的 ID 则依据其在图像中的空间位置分配。
- 视频输入:视频被视为一系列帧,时间 ID 随帧数递增,而高度和宽度的 ID 仍然基于每个 token 在图像中的空间位置分配。
- 时间对齐优化(Temporal Alignment Improvement)
- 传统 MRoPE 的时间 ID 仅与输入帧数相关,没有考虑内容变化速度或事件的绝对时间
- Qwen2.5-VL 关键改进:将时间 ID 对齐至绝对时间,模型通过时间维度 ID 之间的间隔学习一致的时间对齐方式,从而适应不同的 FPS 采样率,提高对视频时序信息的理解能力
预训练
数据
- 相较于 Qwen2-VL,我们大幅扩展了预训练数据的规模,从 1.2 万亿 tokens 增加到约 4 万亿 tokens
- 数据集涵盖了多种多模态数据类型,包括:
- 图像字幕(image captions)
- 交错图文数据(interleaved image-text data)
- 支持上下文学习,提供同时包含视觉和文本信息的训练样本
- 即使缺少图像输入,也能保持强大的文本处理能力
- 涵盖丰富的通用知识,提升模型的知识泛化能力
- OCR 文字识别数据
- 合成数据(Synthetic Data)
- 开源数据(Open-Sourced Data)
- 内部采集数据(In-House Collected Data)
- 视觉知识(名人、地标、动植物识别等)
- 多模态学术问答
- 目标定位数据
- 使用绝对坐标表示目标
- 文档解析数据
- 采用统一的文档解析架构,所有文档元素均统一采用 HTML 格式表示,包含布局信息、插图描述、文本坐标等
- 采用统一的文档解析架构,所有文档元素均统一采用 HTML 格式表示,包含布局信息、插图描述、文本坐标等
- 视频描述与视频定位
- 动态采样不同帧率(FPS)
- 视频目标定位采用秒级(second-based)与 hmsf(时-分-秒-帧)格式标注时间戳
- 智能代理交互数据
- 收集了来自移动端、网页端、桌面端的界面截图,并通过合成数据引擎生成:
- 界面描述(Screenshot Captions)
- UI 元素标注(UI Element Grounding)
训练策略
-
从零开始训练 Vision Transformer (ViT),使用 DataComp 和内部数据集对视觉编码器进行初始化
-
第一阶段:单独训练 Vision Transformer (ViT)
- 目标:提高 ViT 与 LLM 的对齐能力,为多模态理解奠定基础。
- 主要数据来源:
图像字幕(Image Captions)
视觉知识(Visual Knowledge)
OCR 数据 - 该阶段训练重点在于让 ViT 具备提取高质量视觉特征的能力,以便与文本信息进行有效结合。
-
第二阶段:解冻所有参数,训练完整多模态模型
- 目标:增强模型处理复杂视觉信息的能力。
- 主要数据来源:
交错图文数据(Interleaved Image-Text Data)
多任务学习数据(Multi-Task Learning Datasets)
视觉问答(VQA)
多模态数学(Multimodal Mathematics)
智能代理任务(Agent-Based Tasks)
视频理解(Video Understanding)
纯文本数据(Pure-Text Datasets) - 该阶段引入更复杂的数据,以强化视觉与语言之间的深度关联,提高模型的推理能力。
-
第三阶段:增强长序列推理能力
- 目标:提升模型在长视频理解和智能代理任务中的表现,并扩大模型处理的序列长度。
- 主要数据来源:
视频数据(Video Data)
智能代理数据(Agent-Based Data) - 训练方法:
- 增加序列长度至 32,768 tokens,使模型能够处理更长的上下文信息。
- 增强对长依赖任务的处理能力,例如视频分析和跨帧推理。
- 动态数据打包策略(Dynamic Data Packing) 来优化计算效率,均衡不同 GPU 上的计算负载
训练后优化(Post-training)
Qwen2.5-VL 的训练后对齐框架采用 双阶段优化策略,包括:
- 监督微调(Supervised Fine-Tuning, SFT)
- 直接偏好优化(Direct Preference Optimization, DPO)
指令数据(Instruction Data)
构建了一个 约 200 万条指令数据集,用于提升模型在多种模态下的指令跟随能力:
- 50% 纯文本数据
- 50% 多模态数据(图文、视频-文本组合)
- 多领域任务
视觉问答(VQA)
图像字幕生成(Image Captioning)
数学解题(Mathematical Problem-Solving)
编程任务(Coding Tasks)
安全相关问题(Security-Related Queries)
文档解析(Doc & OCR)
目标定位(Grounding)
视频分析(Video Analysis)
智能代理交互(Agent Interactions)
训练策略
- 监督微调(SFT)
- 冻结 Vision Transformer (ViT) 参数。
- 训练数据包括:
图文对(Image-Text Pairs)
视频数据
纯文本数据 - 目标:优化跨模态任务的执行能力。
- 直接偏好优化(DPO)
- 仅使用图文和纯文本数据。
- 采用偏好数据,对齐模型输出与人类偏好。
- 每个样本仅处理一次,以提高优化效率。
Experiments
-
与 SOTA 模型对比,数学上很强,通用 VQA 大部分也达到最高精度
-
纯文本评测也表现出色
-
OCR 效果也很好,在 CC-OCR、OmniDocBench 上刷新 SOTA 记录
-
视觉定位、计数能力也很强
-
视频理解与定位
- LVBench、MLVU(长视频理解):
- Qwen2.5-VL-72B 显著超越 GPT-4o
- Charades-STA(视频事件定位):
- mIoU 50.9,超过 GPT-4o
- 视频最大处理帧数:
- 最高 768 帧
- 最大视频 token 24,576
- LVBench、MLVU(长视频理解):
-
agent 能力,包括 UI 元素定位、android 控制等任务
Conclusion
- 很扎实的开源工作报告,目前最强开源 VLM 模型,在数据处理、模型架构上都有一些创新和优化
- 3B、7B、72B 模型适用于不同的应用场景
- 加上推理模式后的效果值得期待
- 精细化定位等能力确实很重要,比如对于 agent 等场景,要识别出鼠标、按钮等就是需要有精细化定位能力
7B 模型简单测试
-
简单的图表理解效果还行
-
比较难的推理题无法做对(正确答案 698)