A Survey on Multimodal Large Language Models
➡️ 论文标题:A Survey on Multimodal Large Language Models
➡️ 论文作者:Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen
➡️ 研究机构: 中国科学技术大学、腾讯优图实验室
➡️ 问题背景:近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)以其强大的能力,如基于图像编写故事和无需OCR的数学推理,成为研究热点。这些模型利用大规模语言模型(LLMs)作为“大脑”来执行多模态任务,展示了通向通用人工智能的潜在路径。自GPT-4发布以来,MLLMs的研究热潮不断,学术界和工业界都在努力开发能够与GPT-4V竞争甚至超越的MLLMs。
➡️ 研究动机:本文旨在追踪和总结MLLMs的最新进展,为研究人员提供该领域的基本概念、主要方法和当前进展的概览。文章不仅关注视觉和语言模态,还涵盖了涉及视频和音频模态的工作。此外,文章还开放了一个GitHub页面,实时更新最新的研究进展。
➡️ 方法简介:文章首先介绍了MLLMs的基本构成,包括架构、训练策略和数据、以及评估方法。随后,文章深入讨论了MLLMs的几个重要话题,如如何进一步改进或扩展MLLMs、如何缓解多模态幻觉问题等。文章还介绍了三个关键技术:多模态上下文学习(M-ICL)、多模态链式思维(M-CoT)和基于LLM的视觉推理(LAVR)。
➡️ 实验设计:文章没有具体描述实验设计,而是通过综述的形式,总结了MLLMs的架构、训练策略、数据集选择、评估方法等方面的内容。文章还讨论了现有的挑战,并指出了未来的研究方向。
Kosmos-2: Grounding Multimodal Large Language Models to the World
➡️ 论文标题:Kosmos-2: Grounding Multimodal Large Language Models to the World
➡️ 论文作者:Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
➡️ 研究机构: Microsoft Research
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)已经在多种任务中展现出强大的能力,包括语言、视觉和视觉-语言任务。然而,这些模型在处理复杂多模态任务时的能力仍有待提升,特别是在将文本描述与视觉世界中的对象进行精确关联(grounding)方面。
➡️ 研究动机:为了增强多模态大语言模型在视觉-语言任务中的表现,特别是提高模型在理解对象描述(如边界框)和将文本与视觉世界关联方面的能力,研究团队开发了KOSMOS-2。KOSMOS-2不仅继承了KOSMOS-1的多模态感知能力,还引入了新的grounding能力,使模型能够更准确地理解和响应视觉输入。
➡️ 方法简介:研究团队通过构建大规模的grounded image-text对数据集(GRIT),来训练KOSMOS-2。GRIT数据集基于LAION-2B和COYO-700M的子集构建,通过预训练的检测器和grounding模型,将文本中的名词短语和指代表达与图像中的对象区域关联起来。KOSMOS-2采用Transformer架构,通过next-word预测任务进行训练,能够处理文本、图像和grounded image-text对。
➡️ 实验设计:KOSMOS-2在多个任务上进行了评估,包括多模态grounding(如短语grounding和指代表达理解)、多模态指代(如指代表达生成)、感知-语言任务(如图像描述和视觉问答)以及语言任务(如语言理解和生成)。实验结果表明,KOSMOS-2在grounding任务上表现出色,特别是在短语grounding和指代表达理解任务上,显著优于现有的零样本模型。
Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
➡️ 论文标题:Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
➡️ 论文作者:Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao
➡️ 研究机构: SenseTime Research, SKLSDE, Beihang University, SEIEE, Qing Yuan Research Institute, Shanghai Jiao Tong University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理图像内容时,虽然能够感知图像,但无法与用户就图像中的具体位置进行对话。这种局限性阻碍了MLLMs在日常交流中的应用,例如在混合现实(XR)头戴设备、视觉机器人交互和在线购物等场景中,用户需要指示图像中的特定区域,而模型需要准确地理解并回应这些指示。
➡️ 研究动机:为了填补这一空白,研究团队提出了Shikra,一个能够处理空间坐标输入和输出的多模态大语言模型。Shikra的设计旨在实现参照对话(Referential Dialogue, RD),即模型能够理解用户对图像中特定区域的指示,并在回应时指明这些区域。这一能力不仅扩展了MLLMs的应用范围,还为视觉-语言任务(如视觉问答VQA、图像描述和位置相关任务REC、PointQA)提供了新的解决方案。
➡️ 方法简介:Shikra的架构包括一个视觉编码器、一个对齐层和一个大语言模型(LLM)。该模型通过自然语言形式处理所有输入和输出的坐标,无需额外的词汇表、位置编码器、预/后检测模块或外部插件模型。研究团队通过构建和利用高质量的参照对话数据集(如Flickr30K Entities)来训练Shikra,使其能够灵活地处理位置信息。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)、图像描述和参照表达理解(REC)等任务。实验设计了不同的任务形式,如Spotting Captioning,要求模型描述图像并指出提到的对象或区域。此外,研究团队还通过GPT-4生成了高质量的参照对话数据,以增强模型在处理位置信息时的性能。实验结果表明,Shikra在处理位置信息时表现出色,不仅在传统的视觉-语言任务中取得了良好的成绩,还在未见过的设置中展现了强大的应用潜力。
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
➡️ 论文标题:mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
➡️ 论文作者:Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
➡️ 研究机构: DAMO Academy, Alibaba Group
➡️ 问题背景:现有的多模态大语言模型(MLLMs)在无需特定训练的情况下,已经展示了在浅层OCR-free文本识别任务中的潜力,但这些模型在处理复杂文档理解任务时,如图表、文档和网页中的复杂文本和对象关系,仍面临挑战。
➡️ 研究动机:为了克服现有MLLMs在复杂文档理解任务中的局限性,研究团队提出了mPLUG-DocOwl,通过统一的指令调优策略,增强了模型在文档理解任务中的表现,同时保持了通用的单模态和多模态能力。
➡️ 方法简介:mPLUG-DocOwl基于mPLUG-Owl,通过构建一个包含广泛视觉-文本理解任务的指令调优数据集,以及一个OCR-free文档指令理解评估集LLMDoc,来评估模型的指令理解和文档理解能力。在训练过程中,视觉编码器和语言模型保持冻结,仅对视觉抽象器和语言模型的低秩适应(LoRA)进行微调。
➡️ 实验设计:实验在多个公开数据集上进行,包括文档理解、图表理解、自然图像和网页理解等任务。实验设计了不同类型的指令,如视觉问题回答、信息提取、自然语言推理和图像描述,以全面评估模型在不同任务中的表现。实验结果表明,mPLUG-DocOwl在OCR-free文档理解任务中超越了现有方法,包括多个标准基准和LLMDoc评估集。
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning
➡️ 论文标题:ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning
➡️ 论文作者:Liang Zhao, En Yu, Zheng Ge, Jinrong Yang, Haoran Wei, Hongyu Zhou, Jianjian Sun, Yuang Peng, Runpei Dong, Chunrui Han, Xiangyu Zhang
➡️ 研究机构: MEGVII Technology, Huazhong University of Science and Technology, Tsinghua University, Xian Jiaotong University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在人机交互方面展现了巨大的潜力,但现有的端到端MLLMs仅允许用户通过语言指令与其交互,这限制了交互的准确性和效率。特别是在处理复杂场景时,仅使用语言难以准确描述用户需求。
➡️ 研究动机:为了克服现有MLLMs在交互形式上的局限性,研究团队提出了一种新的方法,通过引入精确引用指令(Precise Referring Instructions),利用点和框等引用提示来指代特定区域,使MLLMs能够更精细地与用户交互。这种方法不仅提高了交互的灵活性和用户友好性,还增强了模型在特定区域任务中的表现。
➡️ 方法简介:研究团队提出了ChatSpot,一个统一的端到端多模态大语言模型,支持多种交互形式,包括鼠标点击、拖放和绘制框。ChatSpot通过设计一个简单但有效的精确引用指令调优方法,构建了一个高质量的多粒度视觉-语言指令跟随数据集(MGVLID),并设计了一系列评估任务来测试模型的有效性。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言任务和视觉任务。实验设计了不同类型的指令(如图像级指令和区域级指令),以及不同的评估指标,以全面评估ChatSpot在区域识别、零样本学习和多轮对话等方面的能力。实验结果表明,ChatSpot在多个任务上表现优异,特别是在区域分类和光学字符识别任务中。