欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 焦点 > 2024年发布的多模态大语言模型和它们采用的设计方法

2024年发布的多模态大语言模型和它们采用的设计方法

2024/12/22 10:20:00 来源:https://blog.csdn.net/JellyAI/article/details/144366140  浏览:    关键词:2024年发布的多模态大语言模型和它们采用的设计方法

上一篇:《搭建人工智能多模态大语言模型的通用方法》

在今天的文章中,我将回顾2024年有关多模态大语言模型(LLM)的文献资料,主要关注过去几个月发布的工作,以确保范围合理。

因此,这并不是一个关于多模态LLM的历史性概述或全面回顾,而是对最新进展的简要探讨。同时,我会尽量保持总结简洁,不加太多无关内容,因为要介绍10项研究。

文章最后的结论部分会提供一个总结,比较这些论文中使用的方法。

4.1 Llama 3 模型系列

Meta AI 的 Llama 3 模型系列 论文(发表于2024年7月31日)在今年夏天发布,但在LLM领域,感觉像是很久以前的事情了。然而,考虑到他们只是描述了多模态模型,但直到更晚才真正发布模型,我认为将 Llama 3 包括在这份列表中是合理的。(Llama 3.2 模型正式宣布并开放获取的时间是2024年9月25日。)

Llama 3.2 是一种多模态模型,提供了 110亿和900亿参数的版本。这些模型基于之前描述的跨注意力(cross-attention)方法,与下图所示一致。

Llama 3.2 的多模态LLM方法示意图

(摘自 Llama 3 论文的注释图:https://arxiv.org/abs/2407.21783。这张图为了突出图像部分,视频和语音部分被视觉遮蔽。)

注意,虽然图中显示了视频和语音作为可能的模态,但截至撰写本文时,发布的模型仅支持图像和文本。

Llama 3.2 使用了跨注意力方法,但与我之前提到的有些不同。通常在多模态LLM开发中,我们会冻结图像编码器的参数,只更新语言模型的参数。然而,这里的研究人员几乎采取了相反的做法:他们更新了图像编码器的参数,而语言模型的参数则保持不变。研究人员指出,这样做是有意的,目的是保留其纯文本能力,使得 110亿和900亿参数的多模态模型可以无缝替代 Llama 3.1 的80亿和700亿参数纯文本模型,用于文本任务。

训练流程

训练分多个迭代,从 Llama 3.1 的文本模型开始。在添加图像编码器和投影(即“适配器”)层之后,模型在图文数据上进行预训练。接着,与 Llama 3 纯文本模型训练流程类似(我在之前的文章中写过),模型进行指令和偏好微调。

不同于采用 CLIP 等预训练模型作为图像编码器,研究人员从零开始预训练了一个视觉变换器(ViT)。具体而言,他们采用了经典视觉变换器架构(Dosovitskiy等,2020)中的 ViT-H/14 变体(6.3亿参数)。他们在包含25亿对图文数据的数据集上进行了5个epoch的预训练,这发生在将图像编码器连接到LLM之前。(图像编码器接收 224×224 分辨率的图像,将其分割为14×14的网格,每个网格块大小为16×16像素。)

由于跨注意力层会显著增加参数量,因此每四个变换器块才添加一次跨注意力层。(对于80亿参数的模型,这会增加30亿参数;对于700亿参数的模型,这会增加200亿参数。)

4.2 Molmo 和 PixMo:开源权重与数据的多模态模型前沿探索

《Molmo 和 PixMo:开源权重与数据的多模态模型前沿探索》 论文(2024年9月25日)非常值得注意,因为它不仅承诺开源模型权重,还会开源数据集和源码,类似于纯语言模型 OLMo LLM。(这对LLM研究非常有利,因为研究人员可以查看完整的训练过程和代码,还能在同一个数据集上进行消融实验并复现结果。)

如果你好奇为什么论文标题里有两个名字——Molmo 指代模型(Multimodal Open Language Model,多模态开源语言模型),而 PixMo(Pixels for Molmo)则是对应的数据集。

Molmo 解码器(Decoder-Only)方法示意图(方法A)

注释图改编自《Molmo 和 PixMo:开源权重与数据的多模态模型前沿探索》论文:

https://www.arxiv.org/abs/2409.17146

如上图所示,图像编码器使用的是现成的视觉变换器(Vision Transformer),具体来说是 CLIP 模型。“Connector”(连接器)在这里指代“投影器”,它的作用是将图像特征与语言模型对齐。

Molmo 简化了训练流程,避免了多次预训练阶段,选择了一种更简单的统一训练管道。这个方法更新了所有参数,包括基础LLM、连接器以及图像编码器的参数。

Molmo 团队为基础LLM提供了多种选项:

• OLMo-7B-1024

(完全开源的模型框架)

• OLMoE-1B-7B

(一种专家混合架构,是最有效率的模型)

• Qwen2 7B

(一种开源权重模型,性能优于 OLMo-7B-1024)

• Qwen2 72B

(开源权重模型,也是性能最佳的模型)

4.3 NVLM:开放的前沿级多模态LLM

NVIDIA 的 NVLM:开放的前沿级多模态LLM 论文(2024年9月17日)非常有意思,因为它不仅专注于一种方法,而是同时探索了两种方法:

• 方法A:统一嵌入解码架构(“仅解码器架构”,NVLM-D);

• 方法B:跨模态注意力架构(“基于跨注意力的架构”,NVLM-X)。

此外,他们还开发了一种混合方法(NVLM-H),并对这三种方法进行了公平对比。

三种多模态方法的概述

(注释图摘自《NVLM:开放的前沿级多模态LLM》论文:https://arxiv.org/abs/2409.11402)

正如下图总结的那样,NVLM-D 对应方法A,而 NVLM-X 对应方法B,具体在前文中已有讨论。混合模型(NVLM-H)的概念是结合两种方法的优点:首先输入一张缩略图,然后通过跨注意力传递一组动态数量的图像块,从而捕捉更高分辨率的细节信息。

研究团队的发现可以总结如下:

1. NVLM-X 在处理高分辨率图像时展现了卓越的计算效率。

2. NVLM-D 在OCR(光学字符识别)相关任务中达到了更高的准确率。

3. NVLM-H 结合了两种方法的优势。

训练流程和方法

和 Molmo 及其他方法类似,NVLM 研究团队不是从零开始预训练一个多模态模型,而是从一个纯文本LLM开始(通常这种方法表现更好)。此外,他们选择使用指令微调后的LLM,而不是基础LLM。具体来说,他们的基础LLM是 Qwen2-72B-Instruct(据我所知,Molmo 使用的是 Qwen2-72B 基础模型)。

在 NVLM-D 方法中,他们训练了所有的LLM参数,而对于 NVLM-X,他们发现冻结原始LLM参数,仅在预训练和指令微调阶段训练跨注意力层效果很好。

图像编码器和投影器

在图像编码器方面,他们没有使用常见的 CLIP 模型,而是选择了 InternViT-6B,并在所有阶段保持参数冻结。

投影器使用的是一个多层感知器(MLP),而不是单一线性层。

4.4 Qwen2-VL:在任何分辨率下增强视觉-语言模型对世界的感知

前面提到的两个论文和模型——Molmo 和 NVLM——都基于 Qwen2-72B LLM。而在这篇论文中,Qwen 研究团队自己发布了一种多模态LLM,Qwen2-VL:在任何分辨率下增强视觉-语言模型对世界的感知(发表于2024年10月3日)。

这项研究的核心是他们所谓的**“Naive Dynamic Resolution”(简单动态分辨率)**机制(“Naive”这个词是有意使用的,并不是“Native”(原生)的拼写错误,尽管“Native”这个词也适合)。这个机制允许模型处理不同分辨率的图像,而不是简单地进行降采样,从而能够输入原始分辨率的图像。

多模态 Qwen 模型的概述

(注释图摘自 Qwen2-VL 论文:https://arxiv.org/abs/2409.12191)

该模型通过一个经过修改的视觉变换器(ViT)实现原生分辨率输入,这一修改去掉了原有的绝对位置嵌入(absolute position embeddings),并引入了二维旋转位置编码(2D-RoPE)。

他们使用了一个经典的视觉编码器,参数量为 675M,以及不同大小的LLM主干模型,具体参数如下面的表格所示。

不同 Qwen2-VL 模型的组成部分

(注释图摘自 Qwen2-VL 论文:https://arxiv.org/abs/2409.12191)

训练过程分为三个阶段:

1. 仅预训练图像编码器;

2. 解冻所有参数(包括LLM);

3. 冻结图像编码器,仅对LLM进行指令微调(instruction-finetuning)。

这三阶段的流程结合了高效的视觉处理与强大的语言理解能力,从而使 Qwen2-VL 能够更好地感知和处理来自现实世界的视觉输入。

4.5 Pixtral 12B

Pixtral 12B(2024年9月17日)是 Mistral AI 的第一个多模态模型,它采用了方法A:统一嵌入解码架构。遗憾的是,目前没有公开的技术论文或报告,但 Mistral 团队在他们的博客中分享了一些有趣的细节。

有趣的是,他们选择不使用预训练的图像编码器,而是从头开始训练了一个拥有 4亿参数 的图像编码器。至于 LLM 的主干模型,他们使用了 12亿参数的 Mistral NeMo 模型。

类似于 Qwen2-VL,Pixtral 也原生支持可变图像大小,具体如下面的示意图所示。

Pixtral 如何处理不同大小图像的示意图

(注释图来源于 Pixtral 博客文章:https://mistral.ai/news/pixtral-12b/)

4.6 MM1.5:多模态LLM微调的方法、分析与洞察

《MM1.5:多模态LLM微调的方法、分析与洞察》 论文(2024年9月30日)提供了许多实用建议,并引入了一种混合专家多模态模型以及类似 Molmo 的稠密模型。这些模型的规模范围从 1亿参数 到 300亿参数 不等。

该论文中描述的模型主要集中在方法A:统一嵌入变换器架构,这种架构能够有效地组织输入数据以进行多模态学习。

此外,论文还进行了多项有趣的消融研究,探讨了数据组合以及使用坐标标记(coordinate tokens)的效果。

MM1.5 方法的示意图,包括用于表示边界框的附加坐标标记

(注释图来源于 MM1.5 论文:https://arxiv.org/abs/2409.20566)

4.7 Aria:一种开放的多模态原生混合专家模型

《Aria:一种开放的多模态原生混合专家模型》 论文(2024年10月8日)引入了另一种混合专家模型的方法,与 Molmo 和 MM1.5 系列中的某些变体类似。

Aria 模型拥有 24.9亿参数,其中每个文本标记分配了 3.5亿参数。图像编码器(SigLIP)则拥有 4.38亿参数。

该模型基于跨注意力方法,整体训练流程如下:

1. 从零开始训练LLM主干模型。

2. 同时预训练LLM主干和视觉编码器。

4.8 Baichuan-Omni

《Baichuan-Omni技术报告》(2024年10月11日)介绍了 Baichuan-Omni,这是一种基于方法A:统一嵌入解码架构的 70亿参数多模态LLM,如下图所示:

Baichuan-Omni 模型概述,可以处理多种输入模态

(注释图来源于 Baichuan-Omni 论文:https://arxiv.org/abs/2410.08565)

Baichuan-Omni 的训练过程分为三阶段:

1. 投影器训练:最初仅训练投影器,视觉编码器和语言模型(LLM)保持冻结状态。

2. 视觉编码器训练:接下来解冻视觉编码器并进行训练,LLM 仍然冻结。

3. 完整模型训练:最终解冻 LLM,允许整个模型进行端到端的训练。

该模型采用 SigLIP 视觉编码器,并引入 AnyRes 模块,通过降采样技术处理高分辨率图像。

尽管报告没有明确说明LLM的主干模型,但根据模型参数规模和命名规则,很可能是基于 Baichuan 7B LLM。

4.9 Emu3:下一标记预测是你唯一需要的

《Emu3:下一标记预测是你唯一需要的》 论文(2024年9月27日)提出了一种引人注目的替代扩散模型的图像生成方法,这种方法完全基于变换器解码器架构。虽然它不是传统意义上的多模态LLM(即专注于图像理解而非生成的模型),但 Emu3 非常有趣,因为它表明可以使用变换器解码器进行图像生成,而这通常是扩散方法的领域。(不过需要注意的是,以前也有类似的方法,比如《Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation》。)

Emu3 是一种基于 LLM 的图像生成模型,可作为扩散模型的替代方案

(注释图摘自 Emu3 论文:https://arxiv.org/abs/2409.18869)

研究人员从零开始训练了 Emu3,并使用**直接偏好优化(DPO)**方法将模型调整为符合人类偏好的结果。

该架构包含一个受 SBER-MoVQGAN 启发的视觉标记器(Vision Tokenizer)。核心 LLM 架构基于 Llama 2,但整个模型完全从零开始训练。

4.10 Janus:解耦视觉编码以实现统一的多模态理解与生

我们之前关注的是用于图像理解的多模态LLM,并在上文中通过 Emu3 介绍了一个图像生成的例子。现在,《Janus:解耦视觉编码以实现统一的多模态理解与生成》 论文(2024年10月17日)引入了一个框架,将理解和生成任务统一在一个LLM主干中。

Janus 的一个关键特性是解耦视觉编码路径,以应对理解和生成任务的不同需求。研究人员指出,图像理解任务需要高维语义表示,而生成任务则需要图像的局部细节和全局一致性。通过分离这些路径,Janus 能够有效处理这些不同的需求。

Janus 使用的统一仅解码器框架概述

(注释图摘自 Janus 论文:https://arxiv.org/abs/2410.13848)

该模型使用了与 Baichuan-Omni 相似的 SigLIP 视觉编码器 处理视觉输入。在图像生成方面,它使用向量量化(VQ)标记器处理生成过程。Janus 的基础LLM为 DeepSeek-LLM,拥有 13亿参数。

Janus 模型的三阶段训练流程

(注释图摘自 Janus 论文:https://arxiv.org/abs/2410.13848)

训练过程分为以下三个阶段:

1. 阶段I:仅训练投影层和图像输出层,LLM、理解和生成编码器保持冻结状态。

2. 阶段II:解冻LLM主干和文本输出层,使模型在理解和生成任务上进行统一的预训练。

3. 阶段III:解冻整个模型,包括 SigLIP 图像编码器,进行监督微调,使模型全面整合和优化其多模态能力。

结论

正如你可能注意到的,我几乎完全跳过了模型和计算性能的对比。首先,在公共基准上比较 LLM 和多模态 LLM 的性能非常具有挑战性,因为普遍存在的数据污染问题,这意味着测试数据可能已包含在训练数据中。

此外,架构组件的差异如此之大,以至于很难进行真正的公平对比。所以,向 NVIDIA 团队致敬,他们开发了多种版本的 NVLM,至少使得仅解码器和跨注意力方法之间的比较成为可能。

无论如何,这篇文章的主要结论是:多模态 LLM 可以通过多种不同的方法成功构建。下图总结了本文中涉及的不同模型的组件和训练方法。

本文涉及的不同模型及其子组件和训练方法概述

希望你觉得这几篇文章具有教育意义,并且对多模态 LLM 的工作原理有了更深入的理解!

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com