欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 社会 > Visual-RFT视觉强化微调:用「试错学习」教会AI看图说话

Visual-RFT视觉强化微调:用「试错学习」教会AI看图说话

2025/3/9 17:39:40 来源:https://blog.csdn.net/yumuing/article/details/146124456  浏览:    关键词:Visual-RFT视觉强化微调:用「试错学习」教会AI看图说话

📜 文献卡

英文题目: Visual-RFT: Visual Reinforcement Fine-Tuning;
作者: Ziyu Liu; Zeyi Sun; Yuhang Zang; Xiaoyi Dong; Yuhang Cao; Haodong Duan; Dahua Lin; Jiaqi Wang
DOI: 10.48550/arXiv.2503.01785
摘要翻译: 像OpenAI o1这样的大型推理模型中的强化微调(RFT)从对其答案的反馈中学习,这在微调数据稀缺的应用程序中特别有用。最近像DeepSeek-R1这样的开源工作表明,具有可验证奖励的强化学习是再现o1的一个关键方向。虽然R1风格的模型已经在语言模型中展示了成功,但它在多模态领域的应用仍然没有得到充分探索。这项工作引入了视觉强化微调(Visual-RFT),它进一步扩展了RFT在视觉任务上的应用领域。具体来说,Visual-RFT首先使用大型视觉语言模型(LVLMs)为每个输入生成包含推理令牌和最终答案的多个响应,然后使用我们提出的视觉感知可验证奖励函数通过组相对策略优化(GRPO)等策略优化算法更新模型。我们针对不同的感知任务设计了不同的可验证奖励函数,例如目标检测的交叉点超过联合(IoU)奖励。在细粒度图像分类、少镜头目标检测、推理接地以及开放词汇表目标检测基准上的实验结果显示了Visual-RFT与监督微调(SFT)相比的竞争性能和高级泛化能力。例如,Visual-RFT在大约100个样本的单镜头细粒度图像分类中比基线提高了24.3美元%$。在少镜头目标检测中,Visual-RFT在COCO的双镜头设置上也超过基线21.9美元,在LVIS上超过基线15.4美元。我们的Visual-RFT代表了微调LVLM的范式转变,提供了一种数据高效、奖励驱动的方法,增强了特定领域任务的推理和适应性。
github:https://github.com/liuziyu77/visual-rft

📜 研究核心

⚙️ 内容

论文提出 Visual Reinforcement Fine-Tuning (Visual-RFT),旨在解决大型视觉语言模型(LVLMs)在少样本视觉感知任务中的优化问题。传统监督微调(SFT)依赖大量标注数据,而 Visual-RFT 通过强化学习框架结合可验证奖励机制,在数据稀缺场景下显著提升模型性能1。其核心流程包括:

  1. 多响应生成:LVLMs 对输入生成多个包含推理过程和答案的响应(如 <think><answer> 结构化输出)2
  2. 任务定制奖励:设计基于交并比(IoU)的目标检测奖励和基于分类准确率的奖励,直接量化模型输出的正确性3
  3. 策略优化:采用 Group Relative Policy Optimization (GRPO) 算法,通过对比组内响应的相对质量更新模型参数1

💡 创新

  1. 跨模态奖励迁移:首次将可验证奖励机制从语言领域(如 DeepSeek-R1)扩展到视觉任务,突破传统 RL 在视觉感知中的局限性1
  2. 结构化推理引导:通过强制模型输出 <think> 推理步骤,提升视觉任务的逻辑分析能力(如细粒度分类中准确率提升 24.3%)4
  3. 数据效率突破:仅需 100 个样本即可完成微调,相比 SFT 在少样本目标检测任务中 mAP 提升 21.9(COCO 数据集)2

🧩 不足

  1. 奖励函数依赖:检测任务需手动设计 IoU 奖励,缺乏通用性框架3
  2. 长尾类别局限:在 LVIS 数据集的罕见类别(如 “stepladder”)检测中,性能提升幅度波动较大(AP 0→29.3)5
  3. 计算成本:多响应生成策略增加 30% 训练耗时1

🔁 研究内容

💧 数据

  1. 数据集:COCO(开放词汇检测)、LVIS(罕见类别检测)、LISA(推理定位)、Flower102/Pets37(细粒度分类)25
  2. 预处理
    • 设计结构化提示模板(如检测任务要求输出 [x1,y1,x2,y2] 格式的边界框)3
    • 少样本场景下,仅使用 1-16 张标注图像进行微调4

👩🏻‍💻 实现

  1. 响应生成:对每张输入图像,模型生成 5 组含推理过程的响应1
  2. 奖励计算
    • 检测任务:R = 平均IoU + 置信度奖励 + 格式合规奖励3
    • 分类任务:R = 准确率 + 格式奖励3
  3. 策略更新:GRPO 算法归一化组内奖励后,通过策略梯度提升高奖励响应的生成概率1

🔬 实验

  1. 少样本分类:在 100 样本的细粒度分类中,Visual-RFT 准确率达 80.3%(SFT 为 51.7%)4
  2. 开放词汇检测:COCO 新类别 mAP 从 9.8 提升至 31.3,超越 GroundingDINO 基线5
  3. 推理定位:在 LISA 数据集上,边界框 IoU 提升 10.7%,推理步骤显著改善定位精度(图 5)5

论文中 GRPO 算法与奖励计算逻辑12伪代码形式:

# Visual-RFT 训练流程(简化伪代码)
def Visual_RFT_Training(model, dataset, epochs):for epoch in range(epochs):for image, question in dataset:# 步骤1:生成多响应(G=5)responses = [model.generate(image, question) for _ in range(5)]  # [^1]# 步骤2:计算可验证奖励rewards = []for resp in responses:if task_type == "检测":iou = calculate_iou(resp.bbox, gt_bbox)  # 交并比计算[^3]conf_reward = confidence_penalty(resp.confidence, iou)  # 公式(7)format_ok = check_xml_tags(resp)  # 格式校验[^2]reward = iou + conf_reward + (1 if format_ok else 0)  # 公式(5)elif task_type == "分类":acc = 1 if resp.class == gt_class else 0  # 公式(9)format_ok = check_xml_tags(resp)reward = acc + (1 if format_ok else 0)rewards.append(reward)# 步骤3:GRPO策略优化[^1]mean_r = mean(rewards)std_r = std(rewards)advantages = [(r - mean_r)/std_r for r in rewards]  # 公式(4)# 步骤4:策略梯度更新model.update(responses, advantages)  # 使用KL约束[^1]

📜 结论

Visual-RFT 在 4 类视觉任务中均超越 SFT,证明强化学习可有效提升 LVLMs 的少样本适应能力跨任务泛化性,为数据稀缺场景提供新范式12


🤔 论文总结

👍 论文优点

  1. 方法普适性:兼容检测、分类、定位等多种视觉任务3
  2. 开源贡献:公开训练代码、数据集及评估脚本(GitHub)1
  3. 可解释性:通过 <think> 标签显式展示模型推理过程2

🎓 方法创新

  1. 格式奖励机制:强制结构化输出减少 37% 的格式错误3
  2. 动态置信度惩罚:对误检目标施加 1 - 置信度 的负奖励,降低假阳性 22%3

⌚ 未来展望

  1. 自动化奖励设计:探索基于 LLM 的通用奖励生成器。
  2. 跨任务迁移:研究视觉奖励函数在视频理解中的应用。
  3. 硬件优化:压缩多响应生成的计算开销。

参考内容


  1. Visual-RFT 框架设计与实验设置,参见论文第 3.2 节及图 2。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 数据准备与提示模板设计,详见论文表 1 和 3.2.2 节。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  3. IoU 奖励函数公式推导见论文公式 (5)-(8)。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. 少样本分类实验结果数据来自论文表 2。 ↩︎ ↩︎ ↩︎

  5. 开放词汇检测与推理定位结果参见论文表 7-8 及图 5。 ↩︎ ↩︎ ↩︎ ↩︎

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词