LLama系列大模型讲解

官网：

https://www.llama.com/
https://github.com/meta-llama

论文：

LLama1
- https://arxiv.org/pdf/2302.13971
llama2
- https://arxiv.org/abs/2307.09288
LLama3，3.1，3.2
- llama3 https://ai.meta.com/blog/meta-llama-3/
- llama3.1 https://ai.meta.com/research/publications/the-llama-3-herd-of-models/（https://ai.meta.com/blog/meta-llama-3-1/）
- llama3.2 https://learn.deeplearning.ai/courses/introducing-multimodal-llama-3-2/lesson/2/overview-of-llama-3.2

模型说明：

在这里插入图片描述

LLama1

开放性和效率：LLaMA提供了从7B到65B参数规模不等的一系列基础语言模型，并且所有模型都向研究社区开放。这有助于研究者和开发者在没有访问专有数据集的情况下，使用公开可用的数据集训练出具有竞争力的模型。
性能与规模的平衡：LLaMA-13B模型在大多数基准测试中的表现超过了175B参数的GPT-3模型，而参数量仅为GPT-3的1/10。这表明在给定的计算预算下，通过增加训练数据量而不是单纯增加模型大小来提升性能。
公开数据集的使用：与其他依赖于非公开或未记录数据集（例如“书籍-2TB”或“社交媒体对话”）的模型不同，LLaMA完全基于公开可用的数据集进行训练，这使得其工作与开源兼容。

包括CommonCrawl、C4、Github、Wikipedia、Gutenberg、Books3、ArXiv、Stack Exchange等多个来源的数据集。
特别地，CommonCrawl数据经过CCNet流程处理，包括文本内容分片、段落归一化、行级别去重、使用fastText线性分类器进行语言识别和n-gram语言模型过滤低质量内容。

模型架构的优化：

RMSNorm：将layer-norm改成RMSNorm，并移到input层，增强训练稳定性。
SwiGLU激活函数：提高模型性能，替换FFN中的ReLU激活函数。
RoPE位置编码：更好地建模长序列数据，使用旋转位置编码（RoPE）。

训练方法：LLaMA采用了与Chinchilla缩放法则相似的训练方法( Chinchilla模型的核心观点是，在扩展模型参数规模的同时，应该同等比例地增加训练数据量，即模型参数规模每增加一倍，训练tokens的数量也应该增加一倍。)，并在大量文本数据上训练大型transformer模型。通过使用标准的优化器和调整学习率计划，实现了高效的训练。

使用AdamW优化器进行训练，超参数β1=0.9, β2=0.95。
采用余弦学习率调度技术，最终的学习率是最大学习率的10%。
实施0.1的权重衰减和1.0的梯度裁剪，防止过拟合和保证数值稳定性。

高效的实现：为了提高模型的训练速度，LLaMA在实现上进行了多项优化，包括减少内存使用和运行时间的因果多头注意力机制的高效实现，以及通过checkpointing减少反向传播过程中重新计算的激活量。

利用xformers库中的causal multi-head attention实现，减少内存使用和计算时间。
手动实现反向传播函数，提升训练速度，并采用检查点技术减少资源消耗。
通过模型和序列的并行化，以及优化GPU间通信，提高训练效率。

模型性能的跟踪：在训练过程中，LLaMA的性能在几个问答和常识推理基准上得到了跟踪，并与模型的训练困惑度相关联，这有助于理解模型性能的演变。
对偏见和有害内容的评估：LLaMA评估了模型可能产生的偏见、有害内容和错误信息，并与最新的基准进行了比较，这有助于理解模型潜在的风险。
环境影响的考量：LLaMA还考虑了模型训练的环境影响，包括能耗和碳足迹，并与现有文献中的其他模型进行了比较。

LLama2

LLaMA2与LLaMA1的主要区别如下：

训练数据量增加：LLaMA2的训练数据比LLaMA1多了40%，使用了2万亿个token的数据进行训练。
上下文长度翻倍：LLaMA2的上下文长度从LLaMA1的2048扩展到了4096，使其能够处理和理解更长的文本。
分组查询注意力机制（Grouped-query Attention, GQA）：LLaMA2在34B和70B参数版本的模型中引入了分组查询注意力机制，这种机制允许在多头注意力（MHA）模型中共享键和值投影，从而减少与缓存相关的内存成本。
模型版本：LLaMA2包含了7B、13B、34B和70B四种参数规模的模型，而LLaMA1包含的是7B、13B、33B和65B四种参数规模的模型。
安全性和隐私：LLaMA2在训练中更加注重安全和隐私问题，从某些已知包含大量个人信息的网站中删除了数据。
对话模型优化：基于LLaMA2，Meta进一步发布了针对对话应用优化的微调系列模型LLaMA2-Chat，通过有监督微调（Supervised Fine-Tuning, SFT）和基于人类反馈的强化学习（Reinforcement Learning with Human Feedback, RLHF）等技术进行迭代优化。
开源和商用：LLaMA2是免费可商用的版本，而LLaMA1由于开源协议问题，不可免费商用。

LLama3

Llama 3是Meta公司推出的大型语言模型，具有以下功能特点：

先进的模型架构：

Llama 3采用了基于Transformer的纯解码器架构，这种架构在处理复杂语言任务时表现出色。
引入了分组查询注意力（Grouped Query Attention, GQA）技术，增强了模型的可扩展性，并帮助模型更有效地处理更长的上下文。

大规模的预训练数据：

Llama 3的预训练基于超过15万亿的tokens，这一数据量是Llama 2的7倍多。这些数据均来自公开渠道，涵盖了广泛的领域。
预训练数据集融入了超过5%的非英语内容，覆盖了超过30种不同的语言，增强了Llama 3的多语言处理能力。

性能优势：

Llama 3在多个基准测试中均表现出色，展现了其卓越的性能优势，尤其在代码生成等任务上实现了全面领先。
能够进行复杂的推理，更遵循指令，解决很多微妙的问题。
通过少量的标注数据，Llama 3能够快速适应特定领域的任务，如文本分类、情感分析、机器翻译等。

应用前景：

智能客服：Llama 3可以应用于智能客服系统，提供准确、高效的客户服务。
教育辅导：在教育领域，Llama 3可以作为智能辅导工具，为学生提供个性化的学习方案。
内容创作：Llama 3具备创意写作能力，可以辅助内容创作者生成高质量的文章、文案等。
智能家居：在智能家居领域，Llama 3可以作为语音助手，通过自然语言与用户进行交互。

技术革新：

Llama 3的分词器显著扩展了词汇量至128,256个token，高于Llama 2的32,000个，允许更有效的文本编码。
Llama 3还尝试了多模态处理，能够处理更多种类的输入和输出。

训练和微调：

在预训练阶段，Llama 3使用了超过15万亿令牌的高质量数据集，包括多种语言的文本，以确保模型具有广泛的适用性和优异的性能。
在微调阶段，通过监督式微调（SFT）和带人类反馈的强化学习（RLHF）的混合方法，Llama 3显著降低了错误拒绝率，改善了模型的对齐和响应多样性。

LLama3.1

在这里插入图片描述
Llama 3.1 相较于 Llama 3 有多方面的优化与改进，主要包括以下几点：

上下文长度显著提升：Llama 3.1 的上下文窗口长度从 Llama 3 的 8192 个 token 扩展到 128,000 个 token，增加了 16 倍。这使其能够处理更长的文本输入和对话，并提升长文本的推理能力
更高效的语言编码：沿用了 Llama 3 中的新型分词器（Tokenizer），Llama 3.1 在语言编码效率和模型理解力上进一步优化，可以更精准地捕捉语言中的复杂语义
更强的推理和语言理解能力：Llama 3.1 展示了更出色的语言理解和复杂推理能力，尤其在处理多语言翻译、代码生成、以及基于工具的任务执行方面表现优异
合成数据生成与知识蒸馏：Llama 3.1 的 405B 模型尤其适合用于生成高质量的领域特定合成数据，用于训练其他小型模型，同时也支持知识蒸馏，通过较大的“教师模型”将能力传递给更小的“学生模型”。
广泛的领域适应性：无论是文本分类、情感分析、代码生成还是机器翻译，Llama 3.1 的各种规模模型（8B、70B 和 405B）都展示了极强的领域适应能力，支持多种实际应用场景。
安全性与可定制性：Llama 3.1 延续了 Meta 在开放模型上的负责任创新，具备更好的安全性，同时支持针对领域的持续微调，满足企业级应用需求。
总的来说，Llama 3.1 是在数据量、模型规模和训练方法上的全面升级，显著增强了模型的多功能性和性能。

LLama3.2

在这里插入图片描述
Llama 3.2与Llama 3.1相比，带来了以下主要改进和优化：

增强的模型架构：Llama 3.2在视觉模型方面进行了重新设计，以更有效地处理图像推理任务。新的设计将预训练的图像编码器集成到语言模型中，使其能够处理视觉任务，同时不牺牲文本处理能力。
效率提升：Llama 3.2通过剪枝和知识蒸馏技术，使其较小的模型（1B和3B参数）在保持高性能的同时更加资源高效。
更大的可访问性：Llama 3.2提供了能在移动设备和边缘平台上运行的模型，降低了开发者的入门门槛，使得创建尖端应用更加容易，而不需要大量的计算能力。
多模态能力：Llama 3.2是Meta第一次开源的多模态大模型，包括两个视觉模型（11B、90B），这使得模型能够处理图像和文本输入，并在高分辨率图像上进行推理和转换。
轻量级模型：Llama 3.2包括专为边缘计算和移动设备优化的1B和3B模型，这些模型通过剪枝和不同类型的蒸馏技术创建，以减少模型大小同时保留性能。
性能提升：Llama 3.2在各种基准测试中表现优于Claude3.5 Haiku以及GPT-4o-mini，显示了明显的性能提升。
部署选项：Llama 3.2支持多种部署方式，包括本地部署、边缘部署和云部署，提供了更灵活的部署选项。
多模态训练：Llama 3.2的多模态能力使其能够处理图像和文本输入，并在高分辨率图像上进行推理和转换，为开发者提供了更广阔的应用空间。

这些改进使得Llama 3.2在功能和性能上都有了显著的提升，特别是在多模态处理和边缘计算方面，为开发者提供了更多的灵活性和可能性。