《多模态大型语言模型（MM-LLMs）的最新进展》解读

本文发表于2024年初，作者来自腾讯人工智能实验室、京都大学等，这篇论文系统性总结了目前多模态大语言模型(MM-LLMs)的研究进展，不管是对于这个领域的初探者，还是“局中人”，我觉得这篇论文都是一个很值得学习的资料！

论文地址：https://arxiv.org/abs/2401.13601

GitHub地址：MM-LLMs

摘要

本文综述了多模态大型语言模型（MM-LLMs）的最新进展，这些模型通过cost-effective的训练策略，增强了现成的大型语言模型（LLMs）以支持多模态输入或输出。这些模型不仅保留了LLMs固有的推理和决策能力，还增强了多种多模态任务的能力。文章提供了一个全面的调查，旨在促进MM-LLMs的进一步研究。本文首先概述了模型架构和训练流程的一般设计公式，然后介绍了包含126个MM-LLMs的分类体系，并总结了关键的训练方法，以增强MM-LLMs的效能。最后，探索了MM-LLMs的有前景的发展方向，并维护了一个实时跟踪该领域最新发展的网站。

1、引言

近年来，多模态预训练研究取得了显著进展，不断推动下游任务的性能边界。然而，随着模型和数据集规模的扩大，传统的多模态模型在从头开始训练时会产生巨大的计算成本。通过利用已有的预训练单模态基础模型，特别是功能强大的大型语言模型（LLMs），可以减少计算费用并提高多模态预训练的效果，从而催生了一个新的领域：多模态大型语言模型（MM-LLMs）。本文将从以下方面逐步展开：

模型架构5组件：模态编码器、输入投影器、LLM骨干、输出投影器和模态生成器
训练流程2阶段：MMPT→MMIT
SOTA总结及其发展趋势：26种最先进的MM-LLM
MM-LLM在主流基准上的表现及其训练方法
MM-LLM的未来潜力方向

2、模型架构

本节详细介绍了构成通用模型架构的五个组件，以及每个组件的实现选择。MM-LLMs在训练期间，模态编码器、LLM主干和模态生成器通常保持冻结状态，主要优化输入和输出投影器。由于投影器是轻量级组件，MM-LLMs中的可训练参数比例相对较小（通常约为2%）。因此，MM-LLMs可以有效地训练以赋予各种多模态任务能力。

2.1 模态编码器

模态编码器（ME）的任务是编码来自不同模态的输入IX以获得相应的特征FX。文章总结了处理不同模态的编码器：

Visual Modality视觉模态：四种可选编码器，NFNet-F6、ViT、CLIP ViT、Eva-CLIP ViT
Audio Modality音频模态：C-Former、HuBERT、BEATs、whisper
3D Point Cloud Modality （3D点云模态）：ULIP-2
ImageBind(统一的编码器)：涵盖六种模态，包括图像、视频、文本、音频、热图等，为了处理众多异构模态的编码器。

2.2 输入投影器

输入投影器ΘX→T的任务是将其他模态编码的特征FX与文本特征空间T对齐。对齐后的特征作为提示PX然后与文本特征FT一起输入LLM主干，给定X-text数据集{IX，t}，目标是最小化X条件的文本生成损失Ltxt-gen：

输入投影器可以直接通过线性投影器或多层感知器(MLP)来实现，即交替使用几个线性投影器和非线性激活函数。还有更复杂的实现，如交叉注意Cross-attention、Q-Former (Li et al.， 2023c)或P-Former (Jian et al.， 2023)。

X-Text数据集：是指在多模态大型语言模型（MM-LLMs）的研究和训练中使用的一种数据集，它包含了多种模态（如图像、视频、音频等）与文本的配对数据。这些数据集使得模型能够学习不同模态之间的关联，并在多模态任务中进行有效的信息融合和推理

2.3 LLM主干

LLM主干处理来自各种模态的表示，进行语义理解、推理和决策，产生直接的文本输出t和来自其他模态的信号标记SX（如果有的话）。

一些研究工作还引入了参数高效微调(PEFT)方法，如前缀调优(Li and Liang, 2021)、适配器(Houlsby等，2019)和LoRA (Hu等，2021)。在这些情况下，额外可训练参数的数量非常少，甚至不到LLM参数总数的0.1%。

MM-LLM中常用的LLM包括Flan-T5 (Chung等人，2022)、ChatGLM (Zeng等人，2022a)、UL2 (Tay等人，2022)、Qwen (Bai等人，2023a)、Chinchilla (Hoffmann等人，2022)、OPT (Zhang等人，2022b)、PaLM (Chowd-hery等人，2023)、LLaMA (Touvron等人，2023a)、LLaMA-2 (Touvron等人，2023b)和Vicuna (Chiang等人，2023)。

2.4 输出投影器

输出投影器ΘT→X将LLM主干中的信号标记表示SX映射为模态生成器MGX可以理解的特征HX。

给定X-text数据集{IX, t}，首先将t输入LLM以生成相应的SX，然后将其映射到HX。为了便于对齐映射后的特征HX，目标是最小化HX与MGX的条件文本表示之间的距离:

优化仅依赖于字幕文本，不使用任何音频或视觉资源X，其中HX = ΘT→X(SX)， τX是MGX中的文本条件编码器。输出投影器是由一个微型Transformer或MLP实现的。

2.5 模态生成器

模态生成器MGX的任务是产生不同模态的输出。常见的做法是使用现成的潜在扩散模型（LDMs），如Stable Diffusion用于图像合成，Zeroscope用于视频合成，AudioLDM2用于音频合成。由输出投影器映射的特征HX作为去噪过程中的条件输入，来生成多模态内容。

在训练过程中，标签内容首先被预训练的VAE转化为潜在特征z0 (Kingma and Welling, 2013)。然后向z0添加噪音ϵ以获得嘈杂的潜在特征zt。使用预训练的Unet (Ronneberger et al.， 2015) ϵX计算条件LDM损失LX-gen如下:

3、训练流程

MM-LLMs的训练流程可以分为两个主要阶段：多模态预训练（PT）和多模态指令调优（IT）。

3.1 多模态预训练（PT）

在PT阶段，通常利用X-Text数据集，通过优化预定义的目标来训练输入和输出投影器，实现各种模态之间的对齐。对于多模态理解模型，优化仅关注式(2)，而对于多模态生成模型，优化涉及式(2)、式(4)、式(5)。在后一种情况下，式(2)还包括真值信号令牌序列。

X-Text数据集包括图像-文本、视频-文本和音频-文本，其中图像-文本有两种类型: 图像-文本对(即<img1><txt1>)和交错图像-文本语料库(即<txt1><img1><txt2><txt3><img2><txt4>)。

X-Text数据集往往规模庞大，包含数百万到数十亿的图文对，这为模型提供了丰富的学习材料。同时，这些数据集覆盖了多种主题和领域，增加了模型训练的多样性和泛化能力。

3.2 多模态指令调优（IT）

MM IT是一种微调预训练MM-LLMs的方法，使用指令格式化的数据集。通过这个过程，MM-LLMs可以通过遵循新的指令来泛化到未见过的任务，从而提高零样本性能。

MM IT包括监督微调(SFT)和从人类反馈中强化学习(RLHF)，旨在与人类的意图或偏好保持一致，并增强MM-LLM的交互能力。SFT将部分PT阶段数据转换为指令感知格式。以视觉问答(QA)为例，可以使用各种模板，如(1)< image -age>{Question}问题的简短答案是;(2) <图片>检查图片，用一个简短的答案回答以下问题:{问题}。答:;等等......。接下来，它使用相同的优化目标对预训练的MM-LLM进行微调。SFT数据集可以构建为单回合QA或多回合对话。

在SFT之后，RLHF涉及模型的进一步微调，依赖于MM-LLM响应的反馈(例如，手动或自动标记的自然语言反馈(NLF)) (Sun et al.， 2023)。该过程采用强化学习算法对不可微NLF进行有效积分。该模型经过训练，在NLF条件下产生相应的响应(Chen et al.， 2023h;aky<s:1> rek等人，2023)。现有MM-LLM在MM PT和MM IT阶段使用的数据集各不相同，但它们都是表3和表4中数据集的子集。

4、现状MM-LLMs

如图3所示，本文从功能和设计两个角度对126个SOTA MM-LLMs进行了分类。从设计角度，“工具使用”表示将LLM视为黑盒，提供访问某些多模态专家系统的接口，以执行特定任务；而“端到端”则表示整个模型以端到端的方式进行训练。

基于之前定义的设计公式，本文对26个SOTA MM-LLM的架构和训练数据集规模进行了全面比较，如表1所示。

本文对现有MM-LLM的趋势也进行了总结：

从专注于MM理解逐渐发展为特定模态的生成，并进一步演变为任意到任意模态的转换(例如，MiniGPT-4→MiniGPT-5→NExT-GPT);
从MM PT到SFT再到RLHF，训练流程不断完善，力求更好地符合人类意图，增强模型的对话交互能力(例如，BLIP-2→InstructBLIP →DRESS);
采用多样化的模态扩展(例如，BLIP-2→X-LLM和InstructBLIP→X-InstructBLIP);
结合更高质量的训练数据集(例如，LLaVA→LLaVA- 1.5);
采用更高效的模型架构，从BLIP-2和DLP中复杂的Q-和P-Former输入投影机模块过渡到VILA中更简单但有效的线性投影机。

5、基准测试和性能

为了提供全面的性能比较，本文编制了一个表格，展示了主要MM-LLMs在18个视觉-语言（VL）基准测试中的表现。这些信息呈现在表2中：

6、未来方向

本文探讨了MM-LLMs在以下几个方面的有前景的未来方向：

更通用和智能的模型：扩展模态、多样化LLMs、提高MM IT数据集质量和加强MM生成能力。
更具挑战性的基准测试：构建更具挑战性、更大规模的基准测试，包括额外的模态和统一的评估标准。
移动/轻量级部署：在资源受限的平台（如低功耗移动设备和IoT设备）上部署MM-LLMs，实现最佳性能的同时，轻量级实现至关重要。
体现智能：体现智能旨在通过有效理解环境、识别相关对象、评估它们之间的空间关系并制定全面的任务计划，复制类似人类的感知和与周围环境的交互。
持续学习：由于大规模训练的巨大成本，MM-LLMs不适合频繁重新训练。因此，需要持续学习来使模型能够灵活地、持续地利用新出现的数据，同时避免重新训练MM-LLMs的巨额成本。
减少幻觉：幻觉涉及在没有视觉线索的情况下生成对不存在对象的文本描述，这在多个类别中表现出来，如判断错误和描述不准确。

7、结论

本文提供了MM-LLMs的综合调查，重点关注了最新进展。本文首先对模型架构进行了分类，并提供了通用设计公式和训练流程的详细概述。然后，介绍了各种SOTA MM-LLMs，并概述了它们在不同多模态基准测试中的能力，展望了这一快速发展领域的未来发展。希望这项调查能为研究人员提供洞察，促进MM-LLMs领域的持续进步。

社会影响

MM-LLMs有潜力影响社会，它们可以通过改进语音识别和视觉辅助工具来增强残疾人的可访问性，促进平等获取信息。在教育领域，MM-LLMs可以彻底改变学习体验，迎合多样化的学习风格。在媒体领域，它们可以创造更具吸引力的内容，丰富消费者体验。然而，MM-LLMs的广泛采用也带来了风险，包括由于庞大的训练数据而引发的隐私问题，以及可能加剧AI算法中的偏见，因为训练数据中的偏见可能导致有偏见的输出。此外，自动化传统由人类执行的任务可能导致工作流失，需要积极措施来减轻对就业的潜在负面影响。总体而言，尽管MM-LLMs提供了有希望的机会，但确保它们负责任和公平部署至关重要。

限制

本文全面探索了当前MM-LLMs的格局，提供了从不同角度综合的概述，并丰富了我们的见解。认识到这个领域的动态性，某些方面可能未受到我们的审查，最近的进展可能没有完全包含在内。为了应对这一固有挑战，作者建立了一个专门的网站进行实时跟踪，使用众包捕获最新进展。目标是使这个平台发展成为推动该领域持续发展的持续贡献来源。

Conference：AI之MLM：《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读-CSDN博客