欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 艺术 > 【LLM系列】1.大模型简介

【LLM系列】1.大模型简介

2025/4/9 1:17:13 来源:https://blog.csdn.net/qq_42889517/article/details/147013453  浏览:    关键词:【LLM系列】1.大模型简介

1. 基础

1.1 如何权衡模型的复杂度和性能?

├── a. 模型架构选择
│ ├── 简化架构
│ │ └── 选择较小的网络层数和宽度,降低复杂度;
│ │ 可使用高性能基础模型如 Transformers 作为起点,根据需求缩放模型。
│ └── 剪枝与量化
│ └── 通过剪枝去除不重要参数、量化降低精度,在不显著影响性能的前提下降低复杂度。

├── b. 正则化技术
│ └── 使用 L1/L2 正则化、Dropout、数据增强等手段控制过拟合,
│ 在模型复杂度较低时仍保持良好泛化能力。

├── c. 超参数优化
│ └── 使用网格搜索、随机搜索等方法优化学习率、批量大小、优化器等超参数,
│ 以提升训练效果和模型性能。

├── d. 模型蒸馏
│ └── 利用大模型训练出小模型,让小模型学习大模型的知识,
│ 实现“以小博大”的性能提升。

└── e. 数据集规模与质量
└── 高质量的数据和足够的数据量可以提高模型表现,
进而允许使用更简单的模型结构来达到较高性能。

1.2 大模型的 Scaling Law(扩展法则)

├── 定义:
│ └── 一种基于实验总结的经验规律,
│ 用于指导模型规模、数据量和计算量的合理配置。

├── 作用:
│ └── 在有限计算资源下,
│ 找到性能最优的模型规模与数据量组合。

├── 关键内容:
│ ├── 1. 模型规模与性能
│ │ └── 随着参数数量增加,模型性能通常提升,
│ │ 更大的模型能学习更复杂的数据特征。
│ │
│ ├── 2. 数据量与性能
│ │ └── 提供更多训练数据通常能提升模型性能,
│ │ 对小模型来说影响尤为显著。
│ │
│ ├── 3. 计算资源与性能
│ │ └── 投入更多计算资源(计算能力、训练时间),
│ │ 通常带来更好的模型性能。
│ │
│ └── 4. 表现的规律性
│ └── 性能提升常呈现幂律关系:
│ 如损失随参数数量、数据量呈幂函数下降,
│ 而非线性关系。
在这里插入图片描述

1.3 简述大模型,与传统模型的区别

├── 简介
│ ├── Qwen(大模型):
│ │ └── 追求通用性与生成能力,依赖海量数据和算力,适用于复杂开放任务
│ └── BERT(小模型):
│ └── 面向特定任务高效微调,资源友好,擅长结构化理解任务

├── 与传统模型的主要区别
│ ├── 1. 模型规模:
│ │ └── 大模型参数量远超传统模型,结构更复杂
│ ├── 2. 数据需求:
│ │ └── 大模型需要大量训练数据以避免过拟合,传统模型数据需求小
│ ├── 3. 表现能力:
│ │ └── 大模型具有更强的泛化与表现力,适合复杂任务
│ ├── 4. 计算资源:
│ │ └── 大模型需大量计算资源与训练时间,传统模型计算成本低
│ └── 5. 迁移学习:
│ └── 大模型可高效微调迁移,小模型通常需为任务重新训练

├── 1. 背景维度对比
│ ├── 提出时间:Qwen (2023) vs BERT (2018)
│ ├── 背景目标:
│ │ └── Qwen:生成、推理、多模态等通用任务
│ │ └── BERT:自然语言理解任务(分类、NER等)
│ └── 技术趋势:
│ └── Qwen:参数爆炸、追求零样本能力
│ └── BERT:预训练 + 微调范式,Transformer 早期应用

├── 2. 创新点对比
│ ├── 核心技术:
│ │ └── Qwen:千亿参数、多模态输入
│ │ └── BERT:双向 Transformer,MLM
│ ├── 训练方法:
│ │ └── Qwen:稀疏注意力、混合精度、分布式优化
│ │ └── BERT:掩码语言模型(MLM)+ 下一句预测(NSP)
│ └── 应用扩展:
│ └── Qwen:零/少样本、多轮对话、代码生成
│ └── BERT:长依赖建模、下游微调

├── 3. 训练数据对比
│ ├── 数据规模:
│ │ └── Qwen:数十 TB(多语言、多模态)
│ │ └── BERT:数十 GB(英文文本为主)
│ ├── 数据多样性:
│ │ └── Qwen:文本 + 结构化数据
│ │ └── BERT:英文文本,单语言
│ └── 数据清洗:
│ └── Qwen:复杂质量过滤、多语言对齐
│ └── BERT:规则式清洗

├── 4. 模型结构对比
│ ├── 参数量:
│ │ └── Qwen:千亿级(如 Qwen-72B)
│ │ └── BERT:亿级(BERT-base: 110M)
│ ├── 层数:
│ │ └── Qwen:80+ 层
│ │ └── BERT:12 层
│ ├── 注意力机制:
│ │ └── Qwen:稀疏注意力
│ │ └── BERT:标准多头注意力(12头)
│ └── 结构设计:
│ └── Qwen:Decoder-Only(自回归)
│ └── BERT:Encoder-Only(双向上下文)

├── 5. 训练方法对比
│ ├── 预训练方式:
│ │ └── Qwen:大规模分布式(千卡)
│ │ └── BERT:单机多卡(TPU/GPU)
│ ├── 训练目标:
│ │ └── Qwen:自回归预测下一个词
│ │ └── BERT:掩码语言模型(MLM)+ 下一句预测(NSP)
│ ├── 微调方式:
│ │ └── Qwen:无需微调,通过 Prompt 使用
│ │ └── BERT:必须微调适配任务
│ └── 资源消耗:
│ └── Qwen:百万美元级算力
│ └── BERT:千美元级算力

├── 6. 优缺点对比
│ ├── Qwen 优点:
│ │ └── 通用性强、零样本、多任务支持
│ ├── Qwen 缺点:
│ │ └── 成本高、幻觉风险、可控性差
│ ├── BERT 优点:
│ │ └── 高效轻量、易部署、资源友好
│ └── BERT 缺点:
│ └── 生成能力弱、任务局限、泛化差

└── 7. 应用场景对比
├── Qwen:
│ └── 场景:智能对话、代码生成、创作辅助
│ └── 领域:问答系统、教育、多模态交互
│ └── 适用对象:大型企业、云服务提供商
└── BERT:
└── 场景:分类、NER、语义相似度计算
└── 领域:搜索、推荐、金融风控
└── 适用对象:中小企业、科研用户

1.4 实际业务场景:使用 LLM 还是小模型?

├── 一、总体判断思路
│ └── 模型选择需综合考虑:
│ ├── 业务复杂度
│ ├── 数据规模
│ ├── 算力与预算
│ ├── 技术团队能力
│ └── 系统可扩展性

├── 二、大模型 vs 小模型对比

│ ├── 1. 大模型(如 Qwen)优势:
│ │ ├── 强泛化能力:处理复杂用户行为、非线性关系
│ │ ├── 并行处理能力强:适用于大规模、实时请求
│ │ ├── 深度特征学习:自动提取高阶特征,无需人工特工
│ │ └── 持续在线学习:实时优化,动态适应用户行为
│ │
│ ├── 2. 大模型劣势:
│ │ ├── 高资源消耗:对算力和存储需求高
│ │ ├── 架构复杂:运维成本高,需专业团队
│ │ ├── 可解释性差:为“黑盒”,难以输出推荐依据
│ │ └── 有过拟合风险:小数据场景下表现不稳
│ │
│ ├── 3. 多个小模型优势:
│ │ ├── 高资源效率:可在本地、边缘设备部署
│ │ ├── 灵活性强:支持按人群/场景定制化建模
│ │ ├── 易维护:可单独更新、替换,迭代快
│ │ ├── 高可解释性:推荐逻辑清晰、透明
│ │ └── 容错性强:部分模型出错不会影响整体系统
│ │
│ └── 4. 多个小模型劣势:
│ ├── 分布式协调成本高:统一管理和部署复杂
│ ├── 表达能力有限:处理复杂关系效果不如大模型
│ ├── 模型一致性挑战:协同逻辑难统一
│ └── 多模型训练耗时大:需分别调优与测试

├── 三、业务场景模型选择建议

│ ├── 1. 适合使用大模型的场景:
│ │ ├── 推荐逻辑复杂:如涉及多行为融合、高阶特征
│ │ ├── 实时大规模数据处理:如亿级用户、海量内容
│ │ └── 深度个性化推荐:如长文本生成、对话推荐
│ │
│ ├── 2. 适合使用多个小模型的场景:
│ │ ├── 细粒度差异化推荐:如不同地域、用户群、品类
│ │ ├── 资源受限部署:如边缘端、本地服务器
│ │ ├── 快速试错与更新:如敏捷产品迭代
│ │ └── 需高透明度:如政策监管、金融、医疗
│ │
│ └── 3. 混合部署策略:
│ ├── 大模型用于全局建模与特征抽取
│ ├── 小模型负责具体业务模块细化推荐
│ └── 兼顾性能 + 灵活性,是常见最佳实践

├── 四、模型选择的指导因素

│ ├── 1. 业务需求导向:
│ │ ├── 若追求高精度、高复杂度 → 大模型优先
│ │ └── 若需求灵活、响应迅速、可解释性强 → 小模型优先

│ ├── 2. 算力与预算约束:
│ │ ├── 有 GPU 集群/预算充足 → 支持大模型部署
│ │ └── 算力有限 → 多小模型更划算

│ ├── 3. 团队技术能力:
│ │ ├── 有大模型训练和运维经验 → 可支持大模型上线
│ │ └── 技术能力有限 → 小模型可快速落地

│ ├── 4. 系统扩展性与灵活性:
│ │ ├── 需快速扩展、组件可替换 → 小模型易模块化部署
│ │ └── 统一架构管理,追求极致性能 → 可集中大模型部署

│ ├── 5. 可解释性要求:
│ │ └── 有合规要求或需用户信任的业务 → 小模型占优

│ └── 6. 模型维护与更新频率:
│ ├── 高频迭代业务 → 小模型维护效率高
│ └── 低频更新场景 → 大模型稳定性更强

1.5 “零样本”和“少样本”学习

├── 一、基本定义

│ ├── 零样本学习(Zero-Shot Learning)
│ │ └── 模型在训练中从未见过目标任务/类别,也能正确识别与推理。
│ │
│ └── 少样本学习(Few-Shot Learning)
│ └── 模型仅在极少量示例支持下完成学习与推理任务。

├── 二、零样本学习详解

│ ├── 核心能力
│ │ ├── 强泛化能力
│ │ ├── 上下文理解能力
│ │ └── 概念关系推理能力
│ │
│ ├── 示例
│ │ └── ChatGPT 未接受过某类问题训练,但仍能回答新技术/新事件问题。
│ │
│ └── 实现基础
│ └── 基于大规模预训练模型 + 广泛知识学习 + 语言模式抽象能力

├── 三、少样本学习详解

│ ├── 场景特点
│ │ └── 每个类别仅提供少量样本,模型需快速学习并进行预测。
│ │
│ ├── 示例
│ │ └── 用户在提示中给出 2~3 个例子,模型学会如何生成对应输出。
│ │
│ ├── 主要技术路径
│ │ ├── 1. 数据增强(Data Augmentation)
│ │ │ └── 合成或变换样本,扩充训练数据。
│ │ ├── 2. 迁移学习(Transfer Learning)
│ │ │ └── 使用预训练模型参数,快速适配新任务。
│ │ └── 3. 原型网络(Prototypical Networks)
│ │ └── 基于类别原型计算样本距离进行分类。
│ │
│ └── 应用说明
│ └── ChatGPT 可通过少量对话示例(Prompt)进行任务适配和执行。

├── 四、对比总结

│ ├── 零样本学习:
│ │ └── 不依赖任何任务特定数据,完全靠已有知识推理。
│ └── 少样本学习:
│ └── 依赖极少量任务样本,需快速抽象出规律。

└── 五、应用价值(在 LLM 中的体现)
├── 提高模型灵活性与泛化能力
├── 降低标注数据依赖
├── 支持快速任务切换与指令理解
└── 支持Prompt Engineering、类任务式对话设计

1.6 大模型的涌现能力(Emergent Abilities)

├── 一、定义
│ └── 指大型预训练模型在特定输入下,表现出超出其原始训练目标或设计预期的复杂行为。
│ └── 这些能力通常是自发出现的,并非显式编码或人为指定。

├── 二、关键特性与表现

│ ├── a. 规模依赖性
│ │ └── 随着模型参数量和训练数据规模的增加,模型能力提升;
│ │ 在规模达到某一“临界点”后,开始展现新能力。

│ ├── b. 复杂任务处理
│ │ └── 能处理逻辑推理、编程、复杂对话等未直接训练过的任务;
│ │ 如 LLM 能生成代码、写论文、推理结论等。

│ ├── c. 少样本学习能力
│ │ └── 在只有少量示例的前提下,快速学习新任务;
│ │ 通过上下文和提示理解新任务而无需重训练。

│ ├── d. 行为多样性与适应性
│ │ └── 相同模型在不同任务/语境下表现出不同能力;
│ │ 能根据用户上下文动态调整行为。

│ └── e. 研究与应用价值
│ ├── 成为 AI 研究的热点方向;
│ ├── 被广泛用于自然语言处理、代码生成、多模态交互等;
│ └── 挖掘与引导“潜在能力”成为关键研究目标。

1.7 大模型迁移学习(Transfer Learning)

├── 一、定义
│ └── 将源领域中学到的知识迁移到目标领域中的技术;
│ 利用已有模型参数,减少目标任务对大数据和训练时间的依赖。

├── 二、应用场景
│ └── 数据不足或训练成本高时使用;
│ 通过已有模型进行微调,提高效率与性能。

├── 三、大模型中的迁移学习范式

│ ├── 1. 预训练(Pre-training)
│ │ ├── 在大规模通用语料(如互联网文本)上训练;
│ │ └── 获得具备广泛语言理解能力的通用模型。
│ │
│ ├── 2. 微调(Fine-tuning)
│ │ ├── 在特定任务的小数据集上进一步训练;
│ │ └── 使预训练模型适配具体任务。
│ │
│ └── 说明:
│ ├── 预训练需海量数据和高昂成本;
│ ├── 通常不从零训练;
│ └── 使用公开预训练模型 + 微调 → 成为主流做法。

├── 四、优点总结

│ ├── 1. 节省计算资源
│ │ └── 避免从头训练,节约训练时间与算力成本。

│ ├── 2. 降低数据需求
│ │ └── 即使目标任务样本少,也能取得好效果。

│ └── 3. 适应性强
│ └── 快速适配新任务、新领域,灵活性好。

1.8 文本输入到大模型的全过程(以 Transformer 架构文本摘要为例)

文本输入全过程
├── 1. 输入文本预处理
│ ├── 分词:将长句拆分为词/子词/Token
│ └── 清洗:去除标点、停用词等无效信息

├── 2. 向量化处理
│ └── 使用词嵌入模型(如 Word2Vec、BERT Embedding)
│ 将每个词/Token 转换为对应的向量表示

├── 3. 模型输入层
│ └── 将序列化向量输入至 Transformer 的第 1 层
│ 启动编码过程

├── 4. 模型主体处理(Transformer 编码器/解码器)
│ ├── 自注意力机制:
│ │ └── 学习词与词之间的依赖关系(支持长距离建模)
│ ├── 前馈神经网络:
│ │ └── 提供非线性变换能力
│ └── 残差连接 & LayerNorm:
│ └── 防止梯度消失,稳定训练

├── 5. 输出层处理
│ └── 输出潜在表示 → Softmax → 概率分布
│ (预测下一个最可能的词)

├── 6. 文本生成与后处理
│ ├── 词生成:
│ │ └── 根据概率选择 Token(如贪心/采样/Beam Search)
│ └── 后处理:
│ ├── 拼接句子、消除冗余
│ └── 语义优化,确保摘要自然流畅

└── 7. 性能监控与优化
├── 硬件监控:
│ └── 实时监测 GPU / CPU / 显存 使用率
└── 模型优化:
└── 微调参数、改进推理速度、提升摘要质量

2. Encoder-only & Decoder-only & Encoder-Decoder

2.1 架构类型总览

├── Encoder-Only
│ ├── 用途:理解任务(文本分类、问答、信息抽取)
│ ├── 注意力方向:双向
│ ├── 代表模型:BERT、RoBERTa
│ ├── 训练目标:MLM(掩码语言建模)、NSP
│ ├── 优点:语义理解强
│ └── 缺点:不适合生成任务

├── Decoder-Only
│ ├── 用途:生成任务(文本生成、对话、续写)
│ ├── 注意力方向:单向(因果掩码)
│ ├── 代表模型:GPT-3、LLaMA、PaLM
│ ├── 训练目标:因果语言建模
│ ├── 优点:生成流畅,Few-shot能力强
│ └── 缺点:上下文单向,可能偏离主题

└── Encoder-Decoder
├── 用途:输入-输出映射任务(翻译、摘要)
├── 注意力方向:编码器双向,解码器单向
├── 代表模型:T5、BART、原始Transformer
├── 训练目标:去噪建模、序列转换
├── 优点:处理输入/输出异构结构
└── 缺点:资源消耗大,训练复杂

───────────────────────────────

2.2 Encoder-Only 架构详解
├── 特点:仅使用编码器,对输入文本进行上下文建模
├── 典型模型:
│ ├── BERT:首个双向预训练模型,通过掩码语言建模(MLM)学习上下文表征。
│ ├── RoBERTa:BERT 的优化版,更大数据量、更长训练步长。
│ └── ALBERT:参数共享减少计算量,适合资源受限场景。
└── 应用场景:
├── 文本分类:根据输⼊的⽂本进⾏分类(如情感分析、新闻分类)。
├── 抽取式问答:通过输⼊问题和上下⽂,模型从上下⽂中抽取出准确的答案。
└── 命名实体识别(NER):标注⽂本中的特定实体(如⼈名、地名等)。

2.3 Decoder-Only 架构详解
├── 特点:仅使用解码器,自回归式地逐词生成文本
├── 典型模型:
│ ├── GPT-3 / GPT-4:通过海量数据预训练,Few-Shot 学习能力强
│ ├── PaLM:谷歌大规模模型,强调推理和代码生成能力。
│ └── LLaMA:Meta 开源模型,参数量高效。
└── 应用场景:
├── 文本生成:根据提⽰⽣成⼀段连贯的⽂本(如对话⽣成、⾃动写作)。
├── 对话系统:逐步⽣成⾃然语⾔响应,回答⽤户提问。
└── 翻译(逐词生成类):逐词⽣成⽬标语⾔的翻译结果。

2.4 Encoder-Decoder 架构详解
├── 特点:编码器处理输入 → 解码器生成输出
├── 典型模型:
│ ├── T5:将任务统一为文本到文本格式,适用翻译、摘要等。
│ ├── BART:结合双向编码器与自回归解码器,擅长文本重构任务。
│ └── Transformer:首个完全基于注意力的机器翻译模型。
└── 应用场景:
├── 机器翻译:将⼀个句⼦从源语⾔翻译成⽬标语⾔,编码器负责理解源语⾔句⼦,解码器负责⽣成⽬标语⾔句⼦。
├── 文本摘要:编码器处理⻓⽂本,解码器⽣成简短摘要。
└── 条件生成任务(如自动问答):如⽂本填空或根据输⼊⽣成对应的完整⽂本。

───────────────────────────────

2.5 主要区别总结

├── Encoder-Only:语义理解任务
├── Decoder-Only:文本生成任务
└── Encoder-Decoder:输入映射输出任务

2.6 为什么大模型偏好 Decoder-Only?

├── 1. 架构更简单:省去双结构,只聚焦生成
├── 2. 自回归机制:适合逐步生成文本
├── 3. 输入灵活性:适配任意 prompt,条件控制自由
├── 4. 大规模预训练:学习丰富语言知识,可迁移微调
└── 5. 长文本处理佳:可保持上下文连贯性

3.LLM模型

3.1 Gemma-3 模型

Gemma-3(第三代谷歌开源大模型)
├── 一、背景简介
│ ├── 来自谷歌,发布于“巴黎开发者日”
│ ├── 是 Gemma 系列第三代,支持图文多模态(文字+图像)
│ └── 最重要亮点:1块GPU/TPU 就能运行(对普通开发者更友好)

├── 二、核心参数规格(共4个版本)
│ ├── 1B:轻量模型,适合手机、小设备
│ ├── 4B:适合一般任务,轻量高效
│ ├── 12B:能力较强,支持复杂任务
│ └── 27B:旗舰模型,精度最强,能和Llama、GPT对比

├── 三、关键创新点(重点)
│ ├── ✅ 单设备运行强:跑得快,还省资源
│ ├── ✅ 多语言支持:支持140种语言
│ ├── ✅ 支持图文视频理解:不仅能读文字,还能“看图”
│ ├── ✅ 超长记忆力:一次处理 128K token 的超长文本(上下文窗口大)
│ ├── ✅ 函数调用支持:适合做 AI 助手和自动化
│ └── ✅ 量化优化:官方提供小模型版本,压缩后仍保持高精度

├── 四、训练数据规模(模型越大,训练数据越多)
│ ├── 1B → 使用 2 万亿 token 训练
│ ├── 4B → 使用 4T token
│ ├── 12B → 使用 12T token
│ └── 27B → 使用 14T token(T = 万亿)

├── 五、模型结构说明

│ ├── 1. 主体架构(语言模型 LLM)
│ │ ├── 解码器 Transformer 架构(同 GPT 类)
│ │ ├── 技术点:
│ │ │ ├── GQA(分组查询注意力)→ 更高效的注意力机制
│ │ │ ├── RMSNorm 归一化(提升稳定性)
│ │ │ ├── 局部+全局注意力交替排列(5层局部+1层全局)
│ │ │ ├── RoPE 频率提高到 1M(更好处理长文本)
│ │ │ └── 位置插值技术 → 保证对长文本理解效果

│ └── 2. 多模态部分(视觉编码器)
│ ├── 使用 SigLIP(一个视觉Transformer)
│ ├── 支持图片 896x896 像素输入
│ └── 能处理图像识别、图文理解任务(如识别图中元素)

├── 六、训练方法(模型如何“学会”的)
│ ├── Pre-train + Post-train 两阶段训练
│ ├── 核心训练技巧:
│ │ ├── 模型蒸馏:学“大模型”的知识
│ │ ├── 强化学习调优(提升理解、遵循指令能力)
│ │ └── 三种 RL 技术:
│ │ ├── RLHF:基于人类反馈训练
│ │ ├── RLMF:增强数学能力
│ │ └── RLEF:增强编程能力

├── 七、评估效果(表现好不好)
│ ├── 测试平台:Chatbot Arena(模型排行榜)
│ ├── 结果:
│ │ ├── Gemma-3 27B 超过 LLaMA-3-70B、DeepSeek-V3 等主流模型
│ │ └── 在数学、代码、对话能力等任务上均表现优秀
│ └── 特别说明:27B 模型只用单 GPU 就能跑 → 非常实用

3.2 DeepSeek 系列

├── 3.2.1 DeepSeek-V3(超大模型、智能强)

│ ├── 📌 简介
│ │ ├── 671B 超大参数量 → 意味着“超级聪明”
│ │ ├── 每个 token 激活 37B 参数 → MoE 架构(部分专家工作)
│ │ └── 属于最强开源大模型之一(性能强但运行高效)

│ ├── 📌 核心技术亮点
│ │ ├── ① MLA:多头潜在注意力(Multi-head Latent Attention)
│ │ │ └── 优化注意力机制,减少显存占用但保持效果
│ │ ├── ② DeepSeekMoE 架构(混合专家)
│ │ │ └── 每次预测只用少数专家 → 省算力
│ │ ├── ③ 无辅助损失的负载均衡(Free Load Balance)
│ │ │ └── 自动平衡每个专家被使用频率
│ │ └── ④ 多 Token 预测(Multi-token Prediction, MTP)
│ │ └── 一次预测多个词 → 提高推理速度

│ ├── 🔧 MLA 原理(理解优化注意力)
│ │ ├── 1. 把输入压缩为潜在向量(减少KV缓存)
│ │ ├── 2. 用矩阵投影生成压缩版 key/value
│ │ ├── 3. 使用 RoPE 做位置编码
│ │ └── 4. softmax 权重生成注意力输出
│ │ ✅ 优点:显存占用少,速度快,性能保持

│ ├── 🔧 DeepSeekMoE 原理(专家网络)
│ │ ├── 分为共享专家 + 路由专家(让不同专家负责不同内容)
│ │ ├── 使用门控机制激活最合适的专家
│ │ └── 自动平衡:通过调整偏置项,保证专家不被“偏心”使用

│ └── 🔧 MTP 原理(一次预测多个词)
│ ├── 每个位置不只预测一个词,而是多个词
│ ├── 提前生成多个词向量(加快推理)
│ └── 每个模块都有共享层 + Transformer + 投影层

├── 3.2.2 DeepSeek-R1 INT8(轻量部署版)

│ ├── 📌 背景
│ │ ├── 原版使用 FP8 精度 → 只支持高端 GPU(如 Hopper 架构)
│ │ ├── INT8 精度 → 主流 GPU 也能跑(如 A100)
│ │ └── INT8 推理快、显存少、部署更容易

│ ├── 📌 精度基本无损(测试准确率保持住)
│ │ ├── GSM8K:数学任务
│ │ └── MMLU:多领域知识问答

│ ├── 🔧 INT8 量化原理
│ │ ├── 将 FP16 高精度 → 转为 INT8 低精度
│ │ ├── 通过缩放 + 反缩放,尽量减少信息丢失
│ │ └── 优点:占用空间少、计算快

│ ├── ✅ 两种量化方式(实际应用)
│ │
│ │ ├── 1️⃣ 分块量化(Block-wise Quant)
│ │ │ ├── 把矩阵按小块切 → 精度高
│ │ │ └── 推理快 + 精度好(推荐)
│ │
│ │ └── 2️⃣ 通道量化(Channel-wise Quant)
│ │ ├── 把每列为一个通道
│ │ └── 极致加速,但精度略低

│ ├── 🧪 精度评估结果
│ │ ├── INT8 分块量化 ≈ 原始精度
│ │ └── 通道量化 → 略有波动,但仍可用

│ └── 🚀 吞吐测试(推理速度对比)
│ ├── 在 A100 上测试:
│ │ ├── BF16 原始模型 → 基线速度
│ │ ├── INT8(Block) → 提升 33%
│ │ └── INT8(Channel)→ 提升 50%
│ └── ✅ 减少显存,提升速度,适合大规模部署

└── ✅ 小白总结
👉 DeepSeek-V3:超大聪明模型,注意力优化,专家机制聪明分工,生成快。
👉 DeepSeek-R1 INT8:轻量化版本,适合部署在普通显卡上,速度快,精度也很好。

3.3 Baichuan 系列大模型

├── 3.3.1 Baichuan 2(两款主力型号)
│ ├── 版本:
│ │ ├── Baichuan 2-7B(70亿参数)
│ │ └── Baichuan 2-13B(130亿参数)
│ └── 特点:
│ ├── 使用 2.6 万亿 tokens 训练,远超 Baichuan 1
│ └── 在多个基准上性能提升高达 30%

├── 一、训练数据(🔍 基础知识来源)
│ ├── 数据来源:
│ │ ├── 40% 互联网网页
│ │ ├── 30% 图书
│ │ ├── 20% 学术论文
│ │ ├── 5% 代码
│ │ └── 5% 新闻、博客等
│ └── 数据处理:
│ ├── 去重技术:用 LSH(近似哈希)对段落/句子去重
│ └── 清洗 + 打分 → 只留下高质量内容参与训练

├── 二、模型结构(🏗️ 怎么搭的)
│ ├── 1️⃣ 位置编码
│ │ ├── 7B 模型:RoPE(旋转位置编码)
│ │ └── 13B 模型:ALiBi(线性偏移编码)→ 更强 extrapolation
│ ├── 2️⃣ 激活函数
│ │ └── 使用 SwiGLU(带门控机制的激活)→ 学习能力增强
│ ├── 3️⃣ 注意力机制
│ │ └── xFormers 内存优化注意力 → 适配 RoPE/ALiBi 高效训练
│ └── 4️⃣ Normalization 归一化
│ └── 使用 RMSNorm → 更快更稳,代替传统 LayerNorm

├── 三、训练方法(⚙️ 怎么训的)
│ ├── Optimizer:AdamW(带正则化,收敛快)
│ ├── 学习率策略:
│ │ ├── 预热(Warm-up 2000 步)
│ │ └── 余弦退火策略(Cosine Annealing)
│ ├── 精度:BFloat16 混合精度 → 节省内存 & 稳定训练
│ └── 特殊处理:
│ └── 某些计算用 float32 保精度(例如位置嵌入)

├── 四、对齐训练(🧠 奖励+强化)
│ ├── 🎯 奖励模型(Reward Model, RM)
│ │ ├── 设计了 3 层分类系统(200+种用户需求)
│ │ ├── 自己生成回答 → 自己打分(保持一致性)
│ │ └── RM 表现 ≈ LLaMA 2 级别
│ └── 🧠 PPO 强化学习优化
│ ├── actor(生成)+ critic(评估)+ RM(奖励)+ reference(对比)
│ └── 实现对输出质量的精细调控

├── 五、评估表现(📊 实力对比)
│ ├── 数据集:MMLU、GSM8K、AGIEval、C-Eval 等
│ ├── Baichuan 2-7B:
│ │ └── 普遍超越 Baichuan 1、ChatGLM2、MPT、Falcon 等
│ └── Baichuan 2-13B:
│ └── 多项指标优于 LLaMA 2-13B、Alpaca-Plus、XVerse 等

└── ✅ 总结(小白理解核心)
👉 模型训练数据多、干净、覆盖面广
👉 模型结构灵活(RoPE vs ALiBi),兼顾推理速度和效果
👉 支持 RLHF 微调,让回答更靠谱
👉 评估结果稳居国产开源模型第一梯队
👉 7B/13B 参数量适中 → 性能强且可部署(兼顾效果和资源)

3.4 Qwen 系列(通义千问)模型演进逻辑图

└─ Qwen(初代)【基础通用语言模型】
├─ 语言:中英文为主
├─ 架构:标准Transformer + SwiGLU + RoPE位置编码
├─ 特点:自然语言理解和生成能力强,支持基本对话与问答
└─ 演进 →

├─ Qwen1.5(过渡版本)
│   ├─ 上下文长度扩展到 32K
│   ├─ 引入新位置编码机制:NTK-aware RoPE 插值
│   └─ 主要为 Qwen2 做过渡准备
│
├─ Qwen2(第二代通用模型)
│   ├─ 多语言支持拓展:新增27种语言
│   │   └─ 覆盖:东亚、东南亚、欧洲、中东、南亚主流语言
│   ├─ 上下文能力:最长支持128K上下文(训练和推理均支持)
│   ├─ 关键技术:
│   │   ├─ YARN(Yet Another RoPE Extension)扩展位置编码
│   │   └─ DualChunkAttention:分块注意力计算,大幅降低长文本计算开销
│   └─ 应用场景:文档理解、长对话、多语言问答等
│
└─ Qwen2.5(第三代核心大模型)├─ 模型规模覆盖:0.5B、1.5B、3B、7B、14B、32B、72B├─ 预训练数据:│   ├─ Token总量:18T(大幅提升)│   ├─ 内容分布优化:知识、代码、数学为重点,社交/娱乐等领域降采样│   └─ 质量保障:使用 Qwen2-Instruct 做过滤评分├─ 上下文长度升级:│   ├─ 通用模型:最高128K│   └─ Turbo模型:支持最高1M tokens(YARN + 双块注意力 + ABF扩频)├─ 后训练阶段:│   ├─ SFT:两阶段微调(短32K + 长256K混合)│   ├─ DPO/GRPO:强化偏好与群体对齐│   └─ RLHF:分为离线RL(推理/执行)+ 在线RL(真实/有用/安全等维度)├─ 结构化输出能力:强化对 JSON、表格、长指令结构理解与生成└─ 衍生子模型(专精方向):│├─ Qwen2.5-Omni【全模态模型】│   ├─ 模态支持:文字 + 图像 + 音频 + 视频(输入)│   ├─ 输出形式:文本 + 实时语音│   ├─ 创新架构:│   │   ├─ Thinker-Talker:理解与表达解耦并并行│   │   └─ TMRoPE:时间对齐多模态位置编码(对齐视听模态)│   ├─ 场景应用:AI 语音助手、多模态对话、虚拟主播、音视频问答│   └─ 特点:边输入边输出、语音稳定自然│├─ Qwen-QwQ【自问自答推理模型】│   ├─ 全称:Qwen-with-Questions│   ├─ 技术突破:│   │   ├─ Structured Self-Questioning(结构化自我提问)│   │   └─ 两阶段强化学习(数学+编程 → 通用能力)│   ├─ Agent能力:动态调整推理路径,支持多轮规划│   └─ 应用场景:数学题推理、复杂指令链、AI agent规划执行│├─ Qwen2.5-Math【数学专用模型】│   ├─ 训练数据:│   │   ├─ 公开数据集 + 合成题(含解析) + 多语言数学题│   │   └─ 加入 CoT(Chain-of-Thought)链式推理格式│   ├─ 推理技术:拒绝采样 + 奖励建模选优路径│   └─ 表现:GSM8K、MATH 等基准任务超越大部分开源模型│├─ Qwen2.5-Code【代码专用模型】│   ├─ 语言覆盖:支持40+编程语言(Python、C++、Java、JS等)│   ├─ 训练流程:│   │   ├─ 精选代码预训练 + 指令微调(Code-Instruct)│   │   └─ 多语言沙箱环境静态/动态测试辅助质量提升│   ├─ 输出评估:单元测试验证+代码执行结果过滤│   └─ 表现:HumanEval、MBPP 等代码基准任务表现优异│└─ Qwen2.5-Turbo / Qwen2.5-Plus【通用强化模型】├─ Qwen2.5-Turbo:│   ├─ 超长上下文处理专家(最高1M tokens)│   ├─ ABF(频率扩展)+ 分阶段长序列训练│   └─ 场景:文档总结、合同分析、历史长对话跟踪└─ Qwen2.5-Plus:├─ 平衡版高精度模型(性能接近GPT-4)├─ 多领域泛化能力更强:数学/推理/翻译等└─ 表现优异于MMLU/GSM8K/HumanEval等任务上

3.5 LLAMA 系列

🔹 3.5.1 LLAMA 3.1 —— 新一代升级

LLAMA 3.1
│
├──▶ 🚀 性能大幅提升  
│      → 比以前的模型更聪明,甚至能和GPT-4比一比!
│
├──▶ 🔁 三阶段预训练流程  
│      ├─ 初始预训练 → 模型打基础,学习基本语言知识  
│      ├─ 长文本预训练 → 学习如何理解和处理长文档  
│      └─ 退火训练 → 像“回炉重造”,让模型更加稳健
│
├──▶ 🧹 数据质量优化  
│      ├─ 行级去重 → 删掉重复的句子,保证多样性  
│      ├─ 多层次过滤 → 清理低质量内容,比如错别字、乱码  
│      └─ 引入高质量数据 → 加入优质文章、书籍,补充知识
│
├──▶ 🧠 训练策略升级  
│      ├─ 拒绝采样 → 去掉模型胡说八道的回答  
│      ├─ SFT(监督微调)→ 模型学习怎么更像“助理”  
│      └─ DPO(偏好优化)→ 让模型更懂“人类喜好”
│
├──▶ ⚙️ 网络结构升级  
│      ├─ SwiGLU 激活函数 → 增强模型理解复杂问题的能力  
│      ├─ RoPE 位置编码 → 让模型知道“词语的顺序”  
│      ├─ RMSNorm 归一化 → 保证训练过程稳定、不崩  
│      └─ 残差连接 → 避免“越学越糊涂”,保持信息流畅
│
└──▶ 🎯 特定能力增强  → 专门优化代码生成、多语言处理能力,适配不同应用

🔹 3.5.2 LLAMA 系列总览

LLAMA 总体特征
│
├──▶ 🏗 模型架构:  
│      → 基于 Transformer 构建的框架,通用而强大
│
├──▶ 📏 参数规模多样化  
│      ├─ 7B → 适合中小规模  
│      ├─ 13B / 30B → 平衡性能和成本  
│      └─ 65B → 需要强大硬件,性能最强
│
├──▶ 📂 开源可用  
│      → 任何人都可以下载和使用,适合研究与开发
│
├──▶ 🧠 训练数据丰富  
│      → 使用各种各样的文本数据训练,包括网页、书籍、对话等
│
├──▶ 🔁 网络结构优化组件  
│      ├─ RoPE(旋转位置编码)→ 更好理解词语顺序  
│      ├─ SwiGLU 激活 → 让模型“反应更灵活”  
│      ├─ RMSNorm → 稳定模型训练过程
│
├──▶ 🛡 梯度问题应对措施  
│      ├─ 残差连接 → 保留关键信息  
│      ├─ 归一化 → 防止“计算爆炸”或“没信号”  
│      ├─ 合理激活函数 → 避免数学问题导致“脑抽”
│      └─ 自适应优化器(Adam)→ 像“教练”一样灵活调整训练节奏

🔹 3.5.2.1 如何提升 LLAMA 的中文能力(重点!)

LLAMA 中文增强
│
├──▶ ❓ 为什么LLAMA原生中文不好?  
│      ├─ 训练数据中文太少 → 英文占比高达99%  
│      ├─ 词表不适合中文 → 太多汉字被拆开处理  
│      ├─ 没训练中文任务 → 比如古诗、对联、问诊都没练过
│
├──▶ ✅ 解决方案一:继续预训练  
│      → 用大批高质量中文数据再“训练一遍”  
│      → 比如补上新闻、百科、法律、医疗内容等
│
├──▶ ✅ 解决方案二:扩充词表  
│      → 加入常用汉字、中文词语,解决分词问题  
│      → 让模型“认得更多中文词”
│
├──▶ ✅ 解决方案三:指令微调  
│      → 用中文指令数据(如:写一首诗、解释法规)来训练  
│      → 模型会更懂中文使用习惯
│
├──▶ ✅ 解决方案四:混合专家(MoE)  
│      → 中文专家专门处理中文,英文专家专门处理英文  
│      → 根据输入自动选择最懂的“老师”
│
└──▶ ✅ 解决方案五:人类反馈(RLHF)  → 给模型反馈什么回答更符合中国用户的习惯  → 不断优化回答质量,避免“中式英文”

3.6 T5:Text-to-Text Transfer Transformer


核心理念:所有 NLP 任务都转成 “文本 → 文本”

任务示例(统一格式):
├── 翻译:translate English to German: That is good. → Das ist gut.
├── 分类:cola sentence: The course is jumping well. → Not acceptable
├── 相似度:stsb sentence1: … sentence2: … → 3.8
├── 摘要:summarize: … → 精简内容

🌟 创新点
├── 1. 文本到文本统一框架(每个任务都是一个文本生成)
├── 2. Span Corruption预训练(掩码一整段连续文本)
├── 3. 架构系统探索(测试各种结构选择,找到最优方案)

📚 训练数据
├── 预训练数据:C4英文网页清洗大语料(750GB)
└── 微调数据:GLUE、CNN/DailyMail、WMT等多种任务集

🧠 模型结构(Encoder-Decoder)
├── 相对位置编码(不是用固定位置,而是学出来的位置偏移)
├── LayerNorm放在残差连接前(提高稳定性)
├── FFN使用GELU激活(更平滑更强)
└── 多个模型版本(从小到大)
├── T5-small:60M参数
├── T5-base:220M参数
├── T5-large:770M参数
├── T5-3B:3B参数

⚙️ 训练方法
├── 预训练阶段:
│ ├── 使用 span corruption 掩码训练
│ ├── 优化器:AdaFactor(显存省)
│ └── 大批量长时间训练(1M 步,34B tokens)
└── 微调阶段:
├── 每个任务前面加 prefix(任务前缀提示)
└── 多任务混合训练(翻译、分类、问答等一起训)

✅ 优点
├── 一个模型支持多种任务(统一简洁)
├── 泛化能力强(小样本也能学得不错)
└── 任务前缀让控制更清晰(可解释)

⚠️ 缺点
├── Encoder-Decoder结构导致生成速度慢(不如GPT快)
└── 模型越大越占资源(如T5-3B需要很多显存)

📌 应用场景
├── 文本生成(摘要、翻译、对话)
├── 序列标注(命名实体识别)
├── 问答系统(开放式回答)
└── 数据增强(合成训练样本)

🔧 改进方向
├── mT5:支持101种语言(多语种)
├── T5-UL2:混合预训练目标(更强大)
├── 蒸馏压缩:用大模型教小模型(如Distilled-T5)
└── 领域适配:在医学、法律等数据上继续预训练

💻 实现代码(用Transformers一行就能跑!)
├── 加载模型 tokenizer & model
├── 输入“任务前缀+文本” → 编码成token
├── model.generate() 生成 → decode() 得出结果
└── 支持自定义训练循环 + 优化器微调

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词