欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 焦点 > DataWhale大语言模型--GPT,DeepSeek模型介绍

DataWhale大语言模型--GPT,DeepSeek模型介绍

2025/3/18 9:01:39 来源:https://blog.csdn.net/qq_62904883/article/details/146328267  浏览:    关键词:DataWhale大语言模型--GPT,DeepSeek模型介绍

DataWhale大语言模型--GPT,DeepSeek模型介绍

  • GPT系列模型的发展历程
    • 2017年
    • 2018年
    • 2019年
    • 2020年
    • 2021年
    • 2022年
    • 2023年
    • 2024年
    • 2025年
  • GPT系列模型的技术演变
    • GPT-1(1.1亿参数)
    • GPT-2(15亿参数)
      • 任务形式标准化
      • 训练一致性优化
      • 无监督任务求解
      • 规模扩展尝试
    • InstructGPT
    • ChatGPT
    • o系列的模型
      • o-series
  • DeepSeek的技术演变
    • 模型发展历程
    • 训练框架与数据准备
      • 1. 训练框架 HAI-LLM
      • 2. 数据采集与清洗
    • 架构与算法创新
      • 1. 网络架构优化
      • 2. 训练算法突破
      • 3. 扩展性研究
    • 关键模型技术细节
      • 1. DeepSeek-V3
      • 2. DeepSeek-R1
    • 总结
  • 参考链接

GPT系列模型的发展历程

2017年

  • 谷歌提出Transformer架构
    奠定后续大模型的基础框架。

2018年

  • OpenAI推出GPT
    参数规模:1亿+,开启生成式预训练模型时代。

2019年

  • GPT-2发布
    参数规模:15亿,生成能力显著增强。

2020年

  • GPT-3问世
    参数规模:1750亿,支持零样本/小样本学习。

2021年

  • CodeX
    基于GPT-3的代码预训练模型,强化编程任务能力。
  • WebGPT
    整合搜索能力,增强信息检索与内容生成。

2022年

  • 2月:InstructGPT
    通过人类反馈优化对齐(Human Alignment)。
  • 11月:ChatGPT
    专精对话交互,引发广泛社会关注。

2023年

  • 3月:GPT-4
    突破性支持多模态输入(文本+图像),强化复杂推理能力。

2024年

  • 9月:o1模型
    深度思考能力首次大幅提升。

2025年

  • 1月:o3模型
    进一步优化深度思考与逻辑推理能力。

GPT系列模型的技术演变

  • 小模型:GPT-1,GPT-2
  • 大模型: GPT-3,CodeX,GPT-3.5,GPT-4
  • 推理大模型:o-series

在这里插入图片描述

GPT-1(1.1亿参数)

  • Decode-only Transformer架构
  • 预训练之后针对特定任务进行微调

在这里插入图片描述

GPT-2(15亿参数)

在这里插入图片描述

任务形式标准化

  • 统一为单词预测
    将各类任务统一建模为概率预测形式: P r ( output ∣ input , task ) Pr(\text{output} \mid \text{input}, \text{task}) Pr(outputinput,task)

训练一致性优化

  • 预训练与下游任务对齐
    确保预训练目标与最终应用场景的评估指标高度一致。

无监督任务求解

  • 基于提示(Prompt)的范式
    通过设计提示模板,实现无标注数据的任务适配与推理。

规模扩展尝试

  • 初步探索模型规模扩展
    验证参数规模对任务性能的影响,为后续扩展提供基础。

InstructGPT

  • 大语言模型与人类价值观对齐
  • 提出RLHF算法

在这里插入图片描述

ChatGPT

  • 基于InstructGPT进行相似的技术研发,面向对话进行优化

在这里插入图片描述

o系列的模型

  • 推理任务上能力大幅提升
  • 长思维链推理能力

在这里插入图片描述

o-series

类似人类的慢思考过程

在这里插入图片描述

DeepSeek的技术演变


模型发展历程

模型名称发布时间核心特性
HAI-LLM2023.6深度学习训练框架,支持万亿参数、多种并行策略
DeepSeek LLM2024.110K窗口超参数,7B/67B参数,性能>GPT-3.5
DeepSeek Coder2024.116K窗口,1.3B-33B参数,代码数据清洗
DeepSeek Math2024.2基于7B Coder,数学数据清洗,性能>GPT-3.5
DeepSeek VL2024.3多模态图文模型,性能<GPT-4V (7B)
DeepSeek V22024.5MoE架构(236B参数),MLA注意力机制,数据量10.2T
DeepSeek Coder-V22024.616B/236B参数,基于V2训练6T数据,工程技术优化
DeepSeek V32024.12MoE架构(671B参数,14.8T数据),MTP训练,FP8高效训练
DeepSeek R12025.1基于V3训练,强化推理能力(Scaling RL),性能= o1模型

训练框架与数据准备

1. 训练框架 HAI-LLM

  • 特性:支持万亿参数、数千GPU并行训练,三代主力模型均基于此框架开发。
  • 并行策略:多种混合并行策略,优化大规模训练效率。

2. 数据采集与清洗

  • 通用数据:V1和Math模型中清洗大规模Common Crawl数据。
  • 代码数据:Coder系列收集并清洗高质量代码数据(如GitHub开源库)。
  • 数学数据:Math模型专精数学数据清洗与标注。
  • 多模态数据:VL模型整合图文数据,支持高分辨率输入。

架构与算法创新

1. 网络架构优化

  • MoE架构:V2/V3采用混合专家模型(MoE),提升模型容量与效率。
  • MLA注意力机制(V2):高效注意力设计,降低推理延迟。
  • 复杂均衡损失(V3):解决MoE训练不稳定性。

2. 训练算法突破

  • MTP训练(V3):多Token预测,提升序列建模能力。
  • GRPO算法(Math):改进版PPO,优化数学推理性能。
  • FP8训练(V3):8位浮点精度训练,降低显存占用。

3. 扩展性研究

  • Scaling Law分析(V1):结合数据质量预估超参数性能。
  • 训练效率优化:V3累计使用2.788M H800 GPU时,极致压缩训练成本。

关键模型技术细节

1. DeepSeek-V3

  • 参数规模:671B(37B激活参数),MoE架构。
  • 训练数据:14.8T高质量数据。
  • 核心创新:MTP预测、复杂均衡损失、FP8高效训练。
    在这里插入图片描述

2. DeepSeek-R1

  • 训练方法:基于V3-Base模型,采用强化学习(RL)优化推理能力。
  • 技术亮点
    • 合成微调数据:通过冷启动SFT生成高质量训练样本。
    • 全场景RL:结合RFT(Reward-Finetuned Training)和SFT,提升长程推理稳定性。
    • 性能指标:Zero-shot AME准确率显著提升,响应长度优化。

总结

  • 框架演进:HAI-LLM支撑从千亿到万亿参数的扩展。
  • 数据驱动:领域专用数据清洗能力(代码、数学、多模态)成为核心竞争力。
  • 算法突破:MLA、MTP、MoE等技术持续突破模型性能上限。
  • 效率优先:FP8训练、Scaling RL等方法显著降低训练与推理成本。

参考链接

  • Datawhale组队学习资料:https://www.datawhale.cn/learn/content/107/3294

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词