DataWhale大语言模型--GPT,DeepSeek模型介绍
- GPT系列模型的发展历程
- 2017年
- 2018年
- 2019年
- 2020年
- 2021年
- 2022年
- 2023年
- 2024年
- 2025年
- GPT系列模型的技术演变
- GPT-1(1.1亿参数)
- GPT-2(15亿参数)
- 任务形式标准化
- 训练一致性优化
- 无监督任务求解
- 规模扩展尝试
- InstructGPT
- ChatGPT
- o系列的模型
- o-series
- DeepSeek的技术演变
- 模型发展历程
- 训练框架与数据准备
- 1. 训练框架 HAI-LLM
- 2. 数据采集与清洗
- 架构与算法创新
- 1. 网络架构优化
- 2. 训练算法突破
- 3. 扩展性研究
- 关键模型技术细节
- 1. DeepSeek-V3
- 2. DeepSeek-R1
- 总结
- 参考链接
GPT系列模型的发展历程
2017年
- 谷歌提出Transformer架构
奠定后续大模型的基础框架。
2018年
- OpenAI推出GPT
参数规模:1亿+,开启生成式预训练模型时代。
2019年
- GPT-2发布
参数规模:15亿,生成能力显著增强。
2020年
- GPT-3问世
参数规模:1750亿,支持零样本/小样本学习。
2021年
- CodeX
基于GPT-3的代码预训练模型,强化编程任务能力。 - WebGPT
整合搜索能力,增强信息检索与内容生成。
2022年
- 2月:InstructGPT
通过人类反馈优化对齐(Human Alignment)。 - 11月:ChatGPT
专精对话交互,引发广泛社会关注。
2023年
- 3月:GPT-4
突破性支持多模态输入(文本+图像),强化复杂推理能力。
2024年
- 9月:o1模型
深度思考能力首次大幅提升。
2025年
- 1月:o3模型
进一步优化深度思考与逻辑推理能力。
GPT系列模型的技术演变
- 小模型:GPT-1,GPT-2
- 大模型: GPT-3,CodeX,GPT-3.5,GPT-4
- 推理大模型:o-series
GPT-1(1.1亿参数)
- Decode-only Transformer架构
- 预训练之后针对特定任务进行微调
GPT-2(15亿参数)
任务形式标准化
- 统一为单词预测
将各类任务统一建模为概率预测形式: P r ( output ∣ input , task ) Pr(\text{output} \mid \text{input}, \text{task}) Pr(output∣input,task)。
训练一致性优化
- 预训练与下游任务对齐
确保预训练目标与最终应用场景的评估指标高度一致。
无监督任务求解
- 基于提示(Prompt)的范式
通过设计提示模板,实现无标注数据的任务适配与推理。
规模扩展尝试
- 初步探索模型规模扩展
验证参数规模对任务性能的影响,为后续扩展提供基础。
InstructGPT
- 大语言模型与人类价值观对齐
- 提出RLHF算法
ChatGPT
- 基于InstructGPT进行相似的技术研发,面向对话进行优化
o系列的模型
- 推理任务上能力大幅提升
- 长思维链推理能力
o-series
类似人类的慢思考过程
DeepSeek的技术演变
模型发展历程
模型名称 | 发布时间 | 核心特性 |
---|---|---|
HAI-LLM | 2023.6 | 深度学习训练框架,支持万亿参数、多种并行策略 |
DeepSeek LLM | 2024.1 | 10K窗口超参数,7B/67B参数,性能>GPT-3.5 |
DeepSeek Coder | 2024.1 | 16K窗口,1.3B-33B参数,代码数据清洗 |
DeepSeek Math | 2024.2 | 基于7B Coder,数学数据清洗,性能>GPT-3.5 |
DeepSeek VL | 2024.3 | 多模态图文模型,性能<GPT-4V (7B) |
DeepSeek V2 | 2024.5 | MoE架构(236B参数),MLA注意力机制,数据量10.2T |
DeepSeek Coder-V2 | 2024.6 | 16B/236B参数,基于V2训练6T数据,工程技术优化 |
DeepSeek V3 | 2024.12 | MoE架构(671B参数,14.8T数据),MTP训练,FP8高效训练 |
DeepSeek R1 | 2025.1 | 基于V3训练,强化推理能力(Scaling RL),性能= o1模型 |
训练框架与数据准备
1. 训练框架 HAI-LLM
- 特性:支持万亿参数、数千GPU并行训练,三代主力模型均基于此框架开发。
- 并行策略:多种混合并行策略,优化大规模训练效率。
2. 数据采集与清洗
- 通用数据:V1和Math模型中清洗大规模Common Crawl数据。
- 代码数据:Coder系列收集并清洗高质量代码数据(如GitHub开源库)。
- 数学数据:Math模型专精数学数据清洗与标注。
- 多模态数据:VL模型整合图文数据,支持高分辨率输入。
架构与算法创新
1. 网络架构优化
- MoE架构:V2/V3采用混合专家模型(MoE),提升模型容量与效率。
- MLA注意力机制(V2):高效注意力设计,降低推理延迟。
- 复杂均衡损失(V3):解决MoE训练不稳定性。
2. 训练算法突破
- MTP训练(V3):多Token预测,提升序列建模能力。
- GRPO算法(Math):改进版PPO,优化数学推理性能。
- FP8训练(V3):8位浮点精度训练,降低显存占用。
3. 扩展性研究
- Scaling Law分析(V1):结合数据质量预估超参数性能。
- 训练效率优化:V3累计使用2.788M H800 GPU时,极致压缩训练成本。
关键模型技术细节
1. DeepSeek-V3
- 参数规模:671B(37B激活参数),MoE架构。
- 训练数据:14.8T高质量数据。
- 核心创新:MTP预测、复杂均衡损失、FP8高效训练。
2. DeepSeek-R1
- 训练方法:基于V3-Base模型,采用强化学习(RL)优化推理能力。
- 技术亮点:
- 合成微调数据:通过冷启动SFT生成高质量训练样本。
- 全场景RL:结合RFT(Reward-Finetuned Training)和SFT,提升长程推理稳定性。
- 性能指标:Zero-shot AME准确率显著提升,响应长度优化。
总结
- 框架演进:HAI-LLM支撑从千亿到万亿参数的扩展。
- 数据驱动:领域专用数据清洗能力(代码、数学、多模态)成为核心竞争力。
- 算法突破:MLA、MTP、MoE等技术持续突破模型性能上限。
- 效率优先:FP8训练、Scaling RL等方法显著降低训练与推理成本。
参考链接
- Datawhale组队学习资料:https://www.datawhale.cn/learn/content/107/3294