欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 新闻 > 焦点 > DataWhale大语言模型--GPT,DeepSeek模型介绍

DataWhale大语言模型--GPT,DeepSeek模型介绍

2025/3/18 9:01:39 来源：https://blog.csdn.net/qq_62904883/article/details/146328267 浏览: 次关键词：DataWhale大语言模型--GPT,DeepSeek模型介绍

DataWhale大语言模型--GPT,DeepSeek模型介绍

GPT系列模型的发展历程
- 2017年
- 2018年
- 2019年
- 2020年
- 2021年
- 2022年
- 2023年
- 2024年
- 2025年
GPT系列模型的技术演变
- GPT-1(1.1亿参数)
- GPT-2(15亿参数)
- - 任务形式标准化
  - 训练一致性优化
  - 无监督任务求解
  - 规模扩展尝试
- InstructGPT
- ChatGPT
- o系列的模型
- - o-series
DeepSeek的技术演变
- 模型发展历程
- 训练框架与数据准备
- - 1. 训练框架 HAI-LLM
  - 2. 数据采集与清洗
- 架构与算法创新
- - 1. 网络架构优化
  - 2. 训练算法突破
  - 3. 扩展性研究
- 关键模型技术细节
- - 1. DeepSeek-V3
  - 2. DeepSeek-R1
- 总结
参考链接

GPT系列模型的发展历程

2017年

谷歌提出Transformer架构
奠定后续大模型的基础框架。

2018年

OpenAI推出GPT
参数规模：1亿+，开启生成式预训练模型时代。

2019年

GPT-2发布
参数规模：15亿，生成能力显著增强。

2020年

GPT-3问世
参数规模：1750亿，支持零样本/小样本学习。

2021年

CodeX
基于GPT-3的代码预训练模型，强化编程任务能力。
WebGPT
整合搜索能力，增强信息检索与内容生成。

2022年

2月：InstructGPT
通过人类反馈优化对齐（Human Alignment）。
11月：ChatGPT
专精对话交互，引发广泛社会关注。

2023年

3月：GPT-4
突破性支持多模态输入（文本+图像），强化复杂推理能力。

2024年

9月：o1模型
深度思考能力首次大幅提升。

2025年

1月：o3模型
进一步优化深度思考与逻辑推理能力。

GPT系列模型的技术演变

小模型:GPT-1,GPT-2
大模型: GPT-3,CodeX,GPT-3.5,GPT-4
推理大模型:o-series

在这里插入图片描述

GPT-1(1.1亿参数)

Decode-only Transformer架构
预训练之后针对特定任务进行微调

在这里插入图片描述

GPT-2(15亿参数)

在这里插入图片描述

任务形式标准化

统一为单词预测
将各类任务统一建模为概率预测形式： $Pr(\text{output} \mid \text{input}, \text{task})$ 。

训练一致性优化

预训练与下游任务对齐
确保预训练目标与最终应用场景的评估指标高度一致。

无监督任务求解

基于提示（Prompt）的范式
通过设计提示模板，实现无标注数据的任务适配与推理。

规模扩展尝试

初步探索模型规模扩展
验证参数规模对任务性能的影响，为后续扩展提供基础。

InstructGPT

大语言模型与人类价值观对齐
提出RLHF算法

在这里插入图片描述

ChatGPT

基于InstructGPT进行相似的技术研发,面向对话进行优化

在这里插入图片描述

o系列的模型

推理任务上能力大幅提升
长思维链推理能力

在这里插入图片描述

o-series

类似人类的慢思考过程

在这里插入图片描述

DeepSeek的技术演变

模型发展历程

模型名称	发布时间	核心特性
HAI-LLM	2023.6	深度学习训练框架，支持万亿参数、多种并行策略
DeepSeek LLM	2024.1	10K窗口超参数，7B/67B参数，性能>GPT-3.5
DeepSeek Coder	2024.1	16K窗口，1.3B-33B参数，代码数据清洗
DeepSeek Math	2024.2	基于7B Coder，数学数据清洗，性能>GPT-3.5
DeepSeek VL	2024.3	多模态图文模型，性能<GPT-4V (7B)
DeepSeek V2	2024.5	MoE架构（236B参数），MLA注意力机制，数据量10.2T
DeepSeek Coder-V2	2024.6	16B/236B参数，基于V2训练6T数据，工程技术优化
DeepSeek V3	2024.12	MoE架构（671B参数，14.8T数据），MTP训练，FP8高效训练
DeepSeek R1	2025.1	基于V3训练，强化推理能力（Scaling RL），性能= o1模型

训练框架与数据准备

1. 训练框架 HAI-LLM

特性：支持万亿参数、数千GPU并行训练，三代主力模型均基于此框架开发。
并行策略：多种混合并行策略，优化大规模训练效率。

2. 数据采集与清洗

通用数据：V1和Math模型中清洗大规模Common Crawl数据。
代码数据：Coder系列收集并清洗高质量代码数据（如GitHub开源库）。
数学数据：Math模型专精数学数据清洗与标注。
多模态数据：VL模型整合图文数据，支持高分辨率输入。

架构与算法创新

1. 网络架构优化

MoE架构：V2/V3采用混合专家模型（MoE），提升模型容量与效率。
MLA注意力机制（V2）：高效注意力设计，降低推理延迟。
复杂均衡损失（V3）：解决MoE训练不稳定性。

2. 训练算法突破

MTP训练（V3）：多Token预测，提升序列建模能力。
GRPO算法（Math）：改进版PPO，优化数学推理性能。
FP8训练（V3）：8位浮点精度训练，降低显存占用。

3. 扩展性研究

Scaling Law分析（V1）：结合数据质量预估超参数性能。
训练效率优化：V3累计使用2.788M H800 GPU时，极致压缩训练成本。

关键模型技术细节

1. DeepSeek-V3

参数规模：671B（37B激活参数），MoE架构。
训练数据：14.8T高质量数据。
核心创新：MTP预测、复杂均衡损失、FP8高效训练。

2. DeepSeek-R1

训练方法：基于V3-Base模型，采用强化学习（RL）优化推理能力。
技术亮点：
- 合成微调数据：通过冷启动SFT生成高质量训练样本。
- 全场景RL：结合RFT（Reward-Finetuned Training）和SFT，提升长程推理稳定性。
- 性能指标：Zero-shot AME准确率显著提升，响应长度优化。

总结

框架演进：HAI-LLM支撑从千亿到万亿参数的扩展。
数据驱动：领域专用数据清洗能力（代码、数学、多模态）成为核心竞争力。
算法突破：MLA、MTP、MoE等技术持续突破模型性能上限。
效率优先：FP8训练、Scaling RL等方法显著降低训练与推理成本。

参考链接

Datawhale组队学习资料:https://www.datawhale.cn/learn/content/107/3294

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词