欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 房产 > 建筑 > 多模态大语言模型arxiv论文略读(二十)

多模态大语言模型arxiv论文略读(二十)

2025/4/20 17:05:41 来源:https://blog.csdn.net/Jamence/article/details/147238590  浏览:    关键词:多模态大语言模型arxiv论文略读(二十)

请添加图片描述

MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation

➡️ 论文标题:MedXChat: A Unified Multimodal Large Language Model Framework towards CXRs Understanding and Generation
➡️ 论文作者:Ling Yang, Zhanyu Wang, Zhenghao Chen, Xinyu Liang, Luping Zhou
➡️ 研究机构: The University of Sydney, Australia; Guangzhou University of Chinese Medicine, China
➡️ 问题背景:多模态大语言模型(MLLMs)在各种通用图像处理任务中表现出色,但在医学影像领域的应用尚处于起步阶段,缺乏专门的模型。本研究探讨了MLLMs在提高胸部X光片(CXR)理解和生成方面的潜力。
➡️ 研究动机:现有的多模态处理框架在医学影像和文本处理方面存在明显的空白,尤其是在胸部X光片的解释和生成方面。为了填补这一空白,研究团队开发了MedXChat,一个统一的MLLM框架,旨在通过医疗文本和CXR图像之间的信息交换,支持CXR图像的解释和生成任务。
➡️ 方法简介:MedXChat框架基于指令调优的LLM,通过三个视角解决了图像-文本差异问题:1) 使用CLIP编码器提取和对齐视觉特征,以建立图像和文本标记之间的亲密映射;2) 使用ChatGPT-4 API作为指导,通过创建对话来构建指令数据;3) 通过直接从输入文本提示生成CXR图像,利用稳定扩散模型的指令跟随能力,避免了从文本标记到图像标记的转换。
➡️ 实验设计:研究团队在CXR-to-Report、CXR-VQA和Text-to-CXR三个任务上进行了全面的实验,验证了框架的有效性。实验结果表明,MedXChat在这些任务上优于大多数基于LLM和非LLM的方法。此外,研究团队还邀请了一位放射科医生评估了20份生成的报告和20张CXR图像,进一步验证了方法的临床实用性。

Lenna: Language Enhanced Reasoning Detection Assistant

➡️ 论文标题:Lenna: Language Enhanced Reasoning Detection Assistant
➡️ 论文作者:Fei Wei, Xinyu Zhang, Ailing Zhang, Bo Zhang, Xiangxiang Chu
➡️ 研究机构: Meituan Inc., Beihang University
➡️ 问题背景:随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的快速发展,我们可以通过自然语言与AI系统交流以理解图像。然而,MLLMs中的推理能力和世界知识在图像感知任务中的应用尚未得到充分研究和利用。特别是,现有的模型在处理需要推理的复杂语义时存在局限性。
➡️ 研究动机:为了增强MLLMs在图像感知任务中的推理能力,研究团队提出了Lenna,一个语言增强的推理检测助手。Lenna通过在MLLM词汇中引入一个特殊的标记,不仅保留了位置信息,还能够有效地处理推理任务,从而提高了模型的检测精度和推理能力。
➡️ 方法简介:Lenna结合了多模态大语言模型(如LLaVA)和开放集检测器(如Grounding-DINO),通过引入标记来指示检测任务。该方法通过MLM-guide Query Selection (MQS) 模块实现跨模态特征对齐,从而提高模型的推理和定位能力。研究团队还构建了一个ReasonDet数据集,用于评估模型在推理检测任务中的表现。
➡️ 实验设计:实验在多个数据集上进行,包括RefCOCO、RefCOCO+、RefCOCOg和ReasonDet。实验设计了不同的任务类型,如对象检测、指代表达理解(REC)、推理检测和视觉问答(VQA),以全面评估Lenna的性能。实验结果表明,Lenna在推理检测任务中表现出色,且训练成本显著低于现有方法。

EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model

➡️ 论文标题:EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model
➡️ 论文作者:Guozhang Li, Xinpeng Ding, De Cheng, Jie Li, Nannan Wang, Xinbo Gao
➡️ 研究机构: 香港科技大学(广州)、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景:弱监督视频定位(WSVG)任务旨在根据查询描述在视频中定位感兴趣的时刻,而无需时间边界注释。现有的WSVG方法通常分为隐式监督方法和显式监督方法。隐式监督方法通过代理任务选择提案,而显式监督方法通过生成伪时间边界来桥接视频级和边界级理解之间的差距。然而,这些方法在数据增强过程中可能会丢失关键的时间信息,导致伪边界质量较差。
➡️ 研究动机:为了改善现有的WSVG模型,研究团队提出了一种新的方法,通过引入多模态大语言模型(MLLMs)来提供额外的有价值信息,以扩展初始的伪边界,并通过互学习策略和提案级对比损失(PCL)来澄清这些扩展的伪边界,从而实现更精确的边界定位。
➡️ 方法简介:研究团队提出了EtC(Expand then Clarify)方法,首先使用MLLMs生成的详细描述来扩展初始的伪边界,然后通过互学习策略和PCL来澄清这些扩展的边界,以实现更精确的边界定位。MLLMs用于生成每个帧的详细描述,这些描述被用作基本WSVG模型的输入,以生成扩展的伪边界。PCL通过多模态和单模态对齐来进一步澄清扩展的伪边界。
➡️ 实验设计:研究团队在Charades-STA和ActivityNet Captions两个数据集上进行了实验,评估了EtC方法在弱监督视频定位任务中的性能。实验结果表明,EtC方法在多个评价指标上显著优于现有的WSVG方法,特别是在Rank-1@IOU 0.3和Rank-1@IOU 0.5等关键指标上表现突出。

Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning

➡️ 论文标题:Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning
➡️ 论文作者:Zhuo Huang, Chang Liu, Yinpeng Dong, Hang Su, Shibao Zheng, Tongliang Liu
➡️ 研究机构: Sydney AI Centre (The University of Sydney), Institute of Image Communication and Network Engineering (Shanghai JiaoTong University), Dept. of Comp. Sci. and Tech. (Tsinghua University)
➡️ 问题背景:尽管预训练模型如对比语言-图像预训练(CLIP)在多种任务中表现出色,但在分布外(OOD)场景下的鲁棒性仍然有限。现有的方法通常依赖于人工标注来提高模型的泛化能力,这在大规模应用中是不切实际的。多模态大语言模型(MLLMs)在理解视觉信息方面表现出强大的能力,但它们在视觉任务上的表现受限于任务的不兼容性。
➡️ 研究动机:为了提高视觉模型在OOD场景下的鲁棒性,研究团队提出了一种新的方法——机器视觉疗法(Machine Vision Therapy, MVT),通过利用MLLMs的知识来纠正视觉模型的错误预测。此外,研究团队还提出了一种去噪上下文学习(Denosing In-Context Learning, DICL)策略,以解决MLLMs与视觉任务之间的不兼容问题。
➡️ 方法简介:研究团队设计了一种系统的方法,通过估计转换矩阵(Transition Matrix)来捕捉OOD数据中的标签噪声,并通过构建包含正确和错误示例的指令来指导MLLMs进行去噪学习。具体来说,通过提供一对正负示例,MLLMs可以利用其少样本学习能力来区分视觉模型容易误分类的语义相似图像。最后,利用MLLMs的预测结果来优化视觉模型的参数,从而提高其在OOD任务中的鲁棒性。
➡️ 实验设计:研究团队在多个具有挑战性的数据集及其OOD变体上进行了实验,包括ImageNet、WILDS和DomainBed等。实验设计了不同的因素,如预测置信度、噪声概率等,以全面评估模型在不同条件下的表现。实验结果表明,所提出的方法在多种OOD场景下显著提高了视觉模型的泛化能力和鲁棒性。

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

➡️ 论文标题:GPT4Point: A Unified Framework for Point-Language Understanding and Generation
➡️ 论文作者:Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao
➡️ 研究机构: The University of Hong Kong, Fudan University, Shanghai Jiao Tong University, The Chinese University of Hong Kong, Shanghai AI Laboratory
➡️ 问题背景:尽管大型语言模型(LLMs)在2D图像-文本理解和生成方面取得了显著进展,但在3D世界中的理解和生成能力仍然有限。这限制了在智能机器人和增强现实等重要应用中的进展。现有的3D多模态大型语言模型(3D MLLMs)要么侧重于整体场景,忽视了单个对象的几何细节,要么依赖于2D图像信息,导致几何精度的损失。
➡️ 研究动机:为了解决3D世界理解的不足,研究团队提出了GPT4Point,这是一个创新的点-语言多模态模型,旨在统一3D对象的理解和生成。GPT4Point通过点云和文本的对齐,实现了高质量的3D对象生成,同时保持了几何形状和颜色的准确性。
➡️ 方法简介:GPT4Point采用两阶段架构。第一阶段通过Point-QFormer进行点-文本特征对齐,包括点-文本对比(PTC)、点-文本匹配(PTM)和点-文本生成(PTG)三个任务。第二阶段利用对齐的特征进行3D对象的理解和生成任务,包括文本推理和3D对象生成。此外,研究团队还开发了Pyramid-XL,一个自动化的点-语言数据集标注引擎,用于生成大规模的点-文本对。
➡️ 实验设计:研究团队在Objaverse-XL数据集上进行了广泛的实验,包括3D对象识别、3D点-文本检索和3D对象文本推理任务。实验评估了模型在不同任务中的性能,包括零样本分类、点-文本检索和3D点云描述生成。实验结果表明,GPT4Point在理解和生成3D对象方面表现出色,特别是在处理异常形状和生成高质量3D对象方面。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词