欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 焦点 > Qwen2.5-VL Technical Report

Qwen2.5-VL Technical Report

2025/2/22 12:07:59 来源:https://blog.csdn.net/kebijuelun/article/details/145777810  浏览:    关键词:Qwen2.5-VL Technical Report

TL;DR

  • 2025 年阿里通义实验室发布的 Qwen2.5-VL 技术报告。增强了文档解析、图片视频理解能力,加入了目标定位等精细化感知能力,评测结果基本上能对齐或超过当前最优的 VLM 模型。

Paper name
Qwen2.5-VL Technical Report

Paper Reading Note

Paper URL:

  • https://arxiv.org/pdf/2502.13923

Code URL:

  • https://github.com/QwenLM/Qwen2.5-VL

Introduction

背景

  • 尽管多模态大语言模型取得了显著进步,但当前模型的能力仍类似于夹心饼干的中间层——能够胜任多种任务,但在卓越性能方面仍有不足。
    • 计算复杂度高、上下文理解能力有限、精细化视觉感知不足,以及在不同序列长度上的表现不一致
    • 其中,精细化视觉任务可类比为底层基础。
  • 本次 Qwen2.5-VL 版本的重点在于探索精细化感知能力,旨在构建坚实的 LVLMs 基础,并在现实应用场景中发挥代理增强作用。

本文方案

  • 介绍了 Qwen2.5-VL,在多个基准测试中达到甚至超越了顶级闭源模型

    • 在视觉编码器中实现窗口注意力(Window Attention),优化推理效率
    • 引入动态 FPS 采样,将动态分辨率扩展至时间维度,实现对不同采样率视频的全面理解
    • 在时间域升级 MRoPE,并对齐至绝对时间,以促进更复杂的时间序列学习
    • 在数据筛选方面做出重大努力,在预训练和监督微调中使用高质量数据,并将预训练语料规模从 1.2 万亿 tokens 扩展至 4.1 万亿 tokens
      在这里插入图片描述
  • Qwen2.5-VL 的核心特性

    • 强大的文档解析能力:Qwen2.5-VL 将文本识别升级为全方位文档解析,擅长处理多场景、多语言以及各类内嵌信息(手写文本、表格、图表、化学公式、乐谱等)的文档。
    • 精准的跨格式目标定位:Qwen2.5-VL 提供更高精度的目标检测、指点与计数能力,并支持绝对坐标和 JSON 格式,增强其空间推理能力。
    • 超长视频理解与精细化视频定位:该模型将原生动态分辨率扩展至时间维度,能够理解长达数小时的视频,并以秒级精度提取事件片段。
    • 增强的计算机与移动设备代理功能:借助先进的目标定位、推理和决策能力,该模型在智能手机和计算机端展现更强的代理执行能力。

Methods

模型架构

  • 三个组件
    • 大语言模型:
      • 加载 Qwen2.5 LLM 预训练权重
      • 将一维旋转位置编码(1D RoPE, Rotary Position Embedding)修改为对齐绝对时间的多模态旋转位置编码(MRoPE)
    • 视觉编码器:
      • 重新设计的 Vision Transformer(ViT)架构,结合 2D-RoPE 和窗口注意力(window attention),以支持原生输入分辨率并提升计算效率
      • 在训练和推理过程中,输入图像的高度和宽度被调整为 28 的倍数后输入 ViT。视觉编码器通过以 14 的步幅(stride)划分图像为小块(patch),提取图像特征
    • 基于 MLP 的视觉-语言合并模块(MLP-based Vision-Language Merger)
      • 压缩图像特征序列:将空间上相邻的四个 patch 进行分组,然后将这些特征拼接后通过两层多层感知机(MLP),将其投影至与 LLM 文字嵌入对齐的维度

在这里插入图片描述

  • 模型配置
    在这里插入图片描述
视觉编码器
  • 窗口注意力(Window Attention)优化计算复杂度

    • 由于处理不同大小的图像时计算复杂度呈二次方增长(quadratic complexity),我们在大多数层中引入了窗口注意力机制,使计算开销随着 patch 数量呈线性增长,而非二次增长。
      • 仅有 4 层采用完整的自注意力(self-attention),其余层均采用窗口注意力,最大窗口尺寸为 112×112(即 8×8 patches)。
      • 小于 112×112 的区域无需填充(padding),保持原始分辨率。
  • 2D 旋转位置编码(2D-RoPE)提升空间理解能力

  • 3D Patch 处理提高视频处理能力

    • 静态图像采用 14×14 patches。
    • 视频数据将连续两帧合并为一个基本单位,减少输入 LLM 的 token 数量,提高视频处理效率
  • 对齐 LLM 架构,提高视觉-语言兼容性

    • 归一化方法采用 RMSNorm
    • 激活函数采用 SwiGLU
  • 训练过程

    • CLIP 预训练
    • 视觉-语言对齐
    • 端到端微调
  • 数据使用动态采样策略,使模型适应不同分辨率的输入

    • 基于原始的 aspect ratio 进行采样
原生动态分辨率与帧率

在以下两个维度上进行改进

  • 空间维度(Spatial Domain)
    • 传统方法通常对坐标进行归一化,而 Qwen2.5-VL 直接使用输入图像的实际尺寸表示边界框、关键点等空间特征
    • 该方法使模型能够学习尺度信息,在不同分辨率下都能保持较强的处理能力
  • 时间维度(Temporal Domain)
    • 动态帧率(Dynamic FPS)训练,适应不同帧率的视频,提高时间信息捕捉能力
    • 绝对时间编码(Absolute Time Encoding),在 MRoPE 位置编码中引入时间 ID,直接与时间戳对齐,而不需要额外的计算开销
对齐绝对时间的多模态旋转位置编码(Multimodal Rotary Position Embedding Aligned to Absolute Time)
  • Qwen2.5-VL 在前代 Qwen2-VL 的 MRoPE 旋转位置编码基础上,进一步优化以更好地处理视频中的时间信息
  • MRoPE 位置编码由三部分组成
    • 时间维度(Temporal)
    • 高度维度(Height)
    • 宽度维度(Width)
  • 不同输入的统一:
    • 文本输入:这三个维度共享相同的位置 ID,使其等效于传统 1D RoPE
    • 图像输入:时间 ID 在整个视觉 token 序列中保持一致,而高度和宽度的 ID 则依据其在图像中的空间位置分配。
    • 视频输入:视频被视为一系列帧,时间 ID 随帧数递增,而高度和宽度的 ID 仍然基于每个 token 在图像中的空间位置分配。
  • 时间对齐优化(Temporal Alignment Improvement)
    • 传统 MRoPE 的时间 ID 仅与输入帧数相关,没有考虑内容变化速度或事件的绝对时间
    • Qwen2.5-VL 关键改进:将时间 ID 对齐至绝对时间,模型通过时间维度 ID 之间的间隔学习一致的时间对齐方式,从而适应不同的 FPS 采样率,提高对视频时序信息的理解能力

预训练

数据
  • 相较于 Qwen2-VL,我们大幅扩展了预训练数据的规模,从 1.2 万亿 tokens 增加到约 4 万亿 tokens
  • 数据集涵盖了多种多模态数据类型,包括:
    • 图像字幕(image captions)
    • 交错图文数据(interleaved image-text data)
      • 支持上下文学习,提供同时包含视觉和文本信息的训练样本
      • 即使缺少图像输入,也能保持强大的文本处理能力
      • 涵盖丰富的通用知识,提升模型的知识泛化能力
    • OCR 文字识别数据
      • 合成数据(Synthetic Data)
      • 开源数据(Open-Sourced Data)
      • 内部采集数据(In-House Collected Data)
    • 视觉知识(名人、地标、动植物识别等)
    • 多模态学术问答
    • 目标定位数据
      • 使用绝对坐标表示目标
    • 文档解析数据
      • 采用统一的文档解析架构,所有文档元素均统一采用 HTML 格式表示,包含布局信息、插图描述、文本坐标等
        :
    • 视频描述与视频定位
      • 动态采样不同帧率(FPS)
      • 视频目标定位采用秒级(second-based)与 hmsf(时-分-秒-帧)格式标注时间戳
    • 智能代理交互数据
      • 收集了来自移动端、网页端、桌面端的界面截图,并通过合成数据引擎生成:
      • 界面描述(Screenshot Captions)
      • UI 元素标注(UI Element Grounding)
训练策略
  • 从零开始训练 Vision Transformer (ViT),使用 DataComp 和内部数据集对视觉编码器进行初始化

  • 第一阶段:单独训练 Vision Transformer (ViT)

    • 目标:提高 ViT 与 LLM 的对齐能力,为多模态理解奠定基础。
    • 主要数据来源:
      图像字幕(Image Captions)
      视觉知识(Visual Knowledge)
      OCR 数据
    • 该阶段训练重点在于让 ViT 具备提取高质量视觉特征的能力,以便与文本信息进行有效结合。
  • 第二阶段:解冻所有参数,训练完整多模态模型

    • 目标:增强模型处理复杂视觉信息的能力。
    • 主要数据来源:
      交错图文数据(Interleaved Image-Text Data)
      多任务学习数据(Multi-Task Learning Datasets)
      视觉问答(VQA)
      多模态数学(Multimodal Mathematics)
      智能代理任务(Agent-Based Tasks)
      视频理解(Video Understanding)
      纯文本数据(Pure-Text Datasets)
    • 该阶段引入更复杂的数据,以强化视觉与语言之间的深度关联,提高模型的推理能力。
  • 第三阶段:增强长序列推理能力

    • 目标:提升模型在长视频理解和智能代理任务中的表现,并扩大模型处理的序列长度。
    • 主要数据来源:
      视频数据(Video Data)
      智能代理数据(Agent-Based Data)
    • 训练方法:
      • 增加序列长度至 32,768 tokens,使模型能够处理更长的上下文信息。
      • 增强对长依赖任务的处理能力,例如视频分析和跨帧推理。

在这里插入图片描述

  • 动态数据打包策略(Dynamic Data Packing) 来优化计算效率,均衡不同 GPU 上的计算负载

训练后优化(Post-training)

Qwen2.5-VL 的训练后对齐框架采用 双阶段优化策略,包括:

  • 监督微调(Supervised Fine-Tuning, SFT)
  • 直接偏好优化(Direct Preference Optimization, DPO)
指令数据(Instruction Data)

构建了一个 约 200 万条指令数据集,用于提升模型在多种模态下的指令跟随能力:

  • 50% 纯文本数据
  • 50% 多模态数据(图文、视频-文本组合)
  • 多领域任务
    视觉问答(VQA)
    图像字幕生成(Image Captioning)
    数学解题(Mathematical Problem-Solving)
    编程任务(Coding Tasks)
    安全相关问题(Security-Related Queries)
    文档解析(Doc & OCR)
    目标定位(Grounding)
    视频分析(Video Analysis)
    智能代理交互(Agent Interactions)
训练策略
  • 监督微调(SFT)
    • 冻结 Vision Transformer (ViT) 参数。
    • 训练数据包括:
      图文对(Image-Text Pairs)
      视频数据
      纯文本数据
    • 目标:优化跨模态任务的执行能力。
  • 直接偏好优化(DPO)
    • 仅使用图文和纯文本数据。
    • 采用偏好数据,对齐模型输出与人类偏好。
    • 每个样本仅处理一次,以提高优化效率。

Experiments

  • 与 SOTA 模型对比,数学上很强,通用 VQA 大部分也达到最高精度
    在这里插入图片描述

  • 纯文本评测也表现出色
    在这里插入图片描述

  • OCR 效果也很好,在 CC-OCR、OmniDocBench 上刷新 SOTA 记录
    在这里插入图片描述

  • 视觉定位、计数能力也很强
    在这里插入图片描述
    在这里插入图片描述

  • 视频理解与定位

    • LVBench、MLVU(长视频理解):
      • Qwen2.5-VL-72B 显著超越 GPT-4o
    • Charades-STA(视频事件定位):
      • mIoU 50.9,超过 GPT-4o
    • 视频最大处理帧数:
      • 最高 768 帧
      • 最大视频 token 24,576
        在这里插入图片描述
  • agent 能力,包括 UI 元素定位、android 控制等任务
    在这里插入图片描述

Conclusion

  • 很扎实的开源工作报告,目前最强开源 VLM 模型,在数据处理、模型架构上都有一些创新和优化
  • 3B、7B、72B 模型适用于不同的应用场景
  • 加上推理模式后的效果值得期待
  • 精细化定位等能力确实很重要,比如对于 agent 等场景,要识别出鼠标、按钮等就是需要有精细化定位能力

7B 模型简单测试

  • 简单的图表理解效果还行
    在这里插入图片描述
    在这里插入图片描述

  • 比较难的推理题无法做对(正确答案 698)
    在这里插入图片描述
    在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词