欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 新车 > 多模态大语言模型arxiv论文略读(十八)

多模态大语言模型arxiv论文略读(十八)

2025/4/19 12:58:53 来源:https://blog.csdn.net/Jamence/article/details/147201125  浏览:    关键词:多模态大语言模型arxiv论文略读(十八)

请添加图片描述

Large Model Based Referring Camouflaged Object Detection

➡️ 论文标题:Large Model Based Referring Camouflaged Object Detection
➡️ 论文作者:Shupeng Cheng, Ge-Peng Ji, Pengda Qin, Deng-Ping Fan, Bowen Zhou, Peng Xu
➡️ 研究机构: Tsinghua University、Australian National University、Alibaba Group、Nankai University
➡️ 问题背景:伪装物体检测(COD)是一个广泛研究的视觉问题,具有多种实际应用,如稀有物种发现、医疗诊断和农业害虫识别。2023年,Zhang等人提出了一个更复杂的多模态任务——指称伪装物体检测(Ref-COD),该任务旨在基于文本或视觉参考分割出特定的伪装物体,以提高伪装视觉感知的导向性和效率。
➡️ 研究动机:Ref-COD是一个具有挑战性的问题,即使大型视觉模型也难以解决。主要挑战包括:1) 模型难以感知伪装场景中的复杂模式,即使对人类来说,识别伪装物体也不容易;2) 文本参考要求模型处理伪装照片与文本参考之间的跨模态对齐,如果文本参考过于简短或抽象,且模型在预训练中未见过相关语料,跨模态对齐将更加困难。为了解决这些问题,研究团队提出利用多模态大型语言模型(MLLMs)的语义智能和内在知识,以人类的方式分解这一复杂任务,通过多级知识引导模型逐步感知伪装目标和场景。
➡️ 方法简介:研究团队提出了一种基于MLLMs的多级知识引导多模态方法(MLKG),该方法利用MLLMs生成的多级知识描述,指导大型视觉模型逐步感知伪装目标和场景,同时深度对齐文本参考与伪装照片。MLKG方法通过视觉编码器、视觉解码器、知识工厂、知识编码器和知识注入器五个组件实现,其中知识工厂负责从MLLMs中提取多级知识,知识编码器将知识编码为向量,知识注入器则将编码后的知识与视觉模式对齐,最终指导视觉解码器生成目标分割掩码。
➡️ 实验设计:研究团队在R2C7K和COD10K两个数据集上进行了Ref-COD的训练和测试,并在CHAMELEON、NC4K和CAMO测试集上评估了方法的零样本泛化能力。实验采用了结构度量(Sm)、自适应E度量(αE)、加权F度量(Fwβ)和平均绝对误差(M)四种广泛使用的评估指标,以全面评估模型的性能。

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

➡️ 论文标题:MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models
➡️ 论文作者:Xin Liu, Yichen Zhu, Jindong Gu, Yunshi Lan, Chao Yang, Yu Qiao
➡️ 研究机构: Shanghai AI Laboratory、East China Normal University、Midea Group、University of Oxford
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在指令跟随、多轮对话和基于图像的问答等任务中展现了卓越的能力。然而,这些模型的安全性问题尚未得到充分研究。研究发现,MLLMs在面对与查询相关的图像时,可能会像处理恶意文本查询一样被轻易操控,即使这些模型已经进行了安全对齐。
➡️ 研究动机:现有的研究主要集中在单模态大语言模型(LLMs)的安全性上,而多模态大语言模型(MLLMs)的安全性问题则相对较少被探讨。为了填补这一空白,研究团队设计了一种新的视觉提示攻击方法,旨在评估MLLMs在面对图像操控时的脆弱性,并提出了一种简单的安全提示策略,以增强这些模型的抗攻击能力。
➡️ 方法简介:研究团队构建了一个名为MM-SafetyBench的综合评估框架,该框架包含13个不同场景,共5040个文本-图像对。这些场景涵盖了非法活动、仇恨言论、物理伤害等禁止内容。通过使用Stable Diffusion和Typography技术生成与查询相关的图像,研究团队评估了12个最先进的MLLMs在不同攻击条件下的表现。
➡️ 实验设计:实验设计了多种攻击条件,包括不同的图像生成方法(如Stable Diffusion和Typography)、不同的攻击目标(如非法活动、仇恨言论、物理伤害等),以及不同的模型响应类型(如安全响应、恶意响应)。实验结果表明,使用与查询相关的图像可以显著提高攻击成功率,而引入安全提示可以显著降低模型对恶意查询的响应率。

Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?

➡️ 论文标题:Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels?
➡️ 论文作者:Xiujun Li, Yujie Lu, Zhe Gan, Jianfeng Gao, William Yang Wang, Yejin Choi
➡️ 研究机构: University of Washington、University of California, Santa Barbara、Apple、Microsoft Research
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了出色的指令跟随能力。然而,这些模型在处理图像中嵌入的文本指令时的表现如何,仍是一个未被充分研究的领域。当前的MLLMs主要依赖于文本模态的指令,而对图像中嵌入的文本指令的理解能力较弱。
➡️ 研究动机:研究团队旨在探究MLLMs在处理图像中嵌入的文本指令时的表现,特别是在视觉模态指令(Visual Modality Instruction, VIM)设置下。通过对比文本模态指令(Text-Modality Instruction, TEM)和VIM设置下的模型性能,研究团队希望揭示MLLMs在不同指令模态下的表现差异,并提出改进方法。
➡️ 方法简介:研究团队提出了VISUAL MODALITY INSTRUCTION (VIM) 设置,通过将文本指令嵌入到图像中,评估MLLMs在视觉模态指令下的表现。研究团队构建了VIM-Bench,一个包含多个基准测试的数据集,用于评估不同模型在TEM和VIM设置下的性能。此外,研究团队还训练了一个新的模型V-MLLM,该模型在两种指令模态下都表现出较强的指令跟随能力。
➡️ 实验设计:研究团队在八个基准测试上进行了实验,包括MME、MM-Vet、OKVQA、VizWiz、TextVQA、MathVista、ChartQA和MMMU。实验设计了不同的指令模态(TEM、Mix Instruction和VIM),以全面评估模型在不同设置下的表现。实验结果表明,开源MLLMs在从TEM到VIM设置的转换中性能显著下降,而GPT-4V、GPT-4O和Gemini Pro等专有模型则表现出较强的鲁棒性。V-MLLM在两种设置下均表现出色,特别是在VIM设置下,显著优于开源MLLMs。

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

➡️ 论文标题:OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation
➡️ 论文作者:Qidong Huang, Xiaoyi Dong, Pan Zhang, Bin Wang, Conghui He, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
➡️ 研究机构: University of Science and Technology of China, Shanghai AI Laboratory, The Chinese University of Hong Kong
➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中展现了强大的能力,但它们在生成文本时经常出现“幻觉”问题,即生成与输入图像或提示不符的错误信息。这种问题严重影响了MLLMs在现实世界中的应用,尤其是在需要精确判断的场景中,如自动驾驶。
➡️ 研究动机:现有的减少幻觉的方法通常需要额外的数据、知识或训练,这增加了成本。本研究旨在提出一种无需额外数据、知识或训练的解码方法,以减轻MLLMs的幻觉问题。
➡️ 方法简介:研究团队提出了OPERA,一种基于过信任惩罚(Over-trust Penalty)和回顾分配(Retrospection-Allocation)策略的新型解码方法。OPERA通过在束搜索(Beam Search)过程中引入一个惩罚项,减少模型对少数摘要令牌的过度依赖,从而减轻幻觉问题。此外,OPERA还引入了一种回顾机制,当检测到知识聚合模式时,可以回溯到摘要令牌的位置,重新选择更合适的候选令牌。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,评估了OPERA在不同MLLM模型上的表现。实验包括了对生成文本的幻觉程度的评估,以及与现有解码策略的对比。实验结果表明,OPERA在减少幻觉方面表现出色,且具有广泛的适用性。

Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning?

➡️ 论文标题:Can Multimodal Large Language Models Truly Perform Multimodal In-Context Learning?
➡️ 论文作者:Shuo Chen, Zhen Han, Bailan He, Jianzhe Liu, Mark Buckley, Yao Qin, Philip Torr, Volker Tresp, Jindong Gu
➡️ 研究机构: LMU Munich、University of Oxford、Siemens AG、Technical University of Munich、University of California, Santa Barbara、Munich Center for Machine Learning (MCML)
➡️ 问题背景:大型语言模型(LLMs)通过上下文学习(In-Context Learning, ICL)能力,能够快速适应特定上下文,仅需少量示例(demos)。最近,基于LLMs的多模态大型语言模型(MLLMs)也展示了多模态ICL能力,即在给定少量多模态示例(包括图像、问题和答案)的情况下响应查询。尽管ICL在LLMs上的研究已经非常广泛,但在MLLMs上的研究仍然有限。一个关键问题是,这些MLLMs是否能够真正执行多模态ICL,还是仅依赖文本模态。
➡️ 研究动机:研究团队旨在通过分析影响ICL能力的两个主要因素——示例内容和示例选择策略,来探讨MLLMs是否能够真正执行多模态ICL。具体来说,研究团队试图回答以下问题:1) 不同模态的示例内容如何影响ICL能力?多模态ICL是否主要依赖于单一的文本模态?2) 如何选择多模态示例以提高ICL性能?在选择这些示例时,应该依赖图像、文本还是两者兼有?
➡️ 方法简介:研究团队通过实验分析了多个MLLMs和视觉-语言任务,揭示了文本信息对于成功的多模态ICL至关重要,而视觉信息的影响较小。实验还表明,视觉信息在选择示例时仍然有用,可以提高ICL性能。基于这些发现,研究团队提出了一种简单而有效的方法——混合模态上下文示例选择(Mixed Modality In-Context Example Selection, MMICES),该方法在选择示例时同时考虑视觉和语言模态。
➡️ 实验设计:研究团队在四个流行的视觉-语言数据集上进行了实验,包括视觉问答(VQA)、视觉推理和图像描述任务。实验设计了不同的设置,如移除示例中的图像、替换为空白图像、移除查询图像等,以评估不同模态信息对ICL性能的影响。此外,研究团队还比较了随机选择和基于检索的上下文示例选择(RICES)方法,以验证视觉信息在示例选择中的作用。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词