欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 旅游 > 【Deepseek基础篇】--v3基本架构

【Deepseek基础篇】--v3基本架构

2025/3/13 20:59:21 来源:https://blog.csdn.net/qq_58602552/article/details/146052478  浏览:    关键词:【Deepseek基础篇】--v3基本架构

目录

MOE参数

1.基本架构

1.1. Multi-Head Latent Attention多头潜在注意力

1.2.无辅助损失负载均衡的 DeepSeekMoE

2.多标记预测

2.1. MTP 模块


论文地址:https://arxiv.org/pdf/2412.19437

DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE)架构的大型语言模型,其核心参数配置如下:【大模型理论篇】--Mixture of Experts架构-CSDN博客

  • 模型层数:61 层

  • 隐藏层维度:7168

  • 前馈网络维度:18432

  • 注意力头数:128

  • 词汇表大小:129280

  • 最大位置嵌入:163840

    该模型通过精细的架构设计,实现了在计算效率和性能上的平衡。

MOE参数

参数描述
MoE 层频率1--每一层都是 MoE 层
共享专家数1
路由专家数256
每个 Token 选择的专家数8
MoE 专家前馈网络维度2048
总 MoE 层数58 层(第 4 层至第 61 层)
每层专家总数257 个(1 个共享专家 + 256 个路由专家)
模型总专家数14,906 个(257 个专家 × 58 层)
每层活跃专家9 个(1 个共享专家 + 8 个路由专家)
整个模型的活跃专家522 个(9 个活跃专家 × 58 层)
计算效率高每个 Token 只需计算少量专家,降低了计算成本
参数利用率高总参数量 6,710 亿,实际计算的激活参数仅约 370 亿
专家专精化路由机制使得专家专注于特定特征,提高模型性能
路由专家(Routed Experts)
- 选择性激活按需激活,利用门控机制(如基于亲和度分数的 Top-K 选择)决定哪些专家处理当前 Token
- 专精化处理每个路由专家擅长处理特定类型的输入或特征,实现专精化
- 稀疏计算仅激活部分专家,提高计算效率
- 负载均衡确保不同专家在不同输入上均衡被激活,避免过载
共享专家(Shared Experts)
- 全局参与始终参与所有输入的处理,贡献通用知识
- 促进泛化捕捉数据中的普遍模式,减少过拟合风险
- 提高稳定性提供稳定的基础,即使路由机制不完美时,也能有可靠的输出

1.基本架构

        DeepSeek-V3模型的架构,包括

  1. 基本架构、
  2. 多头潜在注意力机制(MLA)、
  3. DeepSeekMoE
  4. 多token预测(MTP)训练目标。

        DeepSeek-V3的架构设计在高效推理和经济高效的训练之间取得了良好的平衡,并通过引入辅助损失免费负载均衡策略和多token预测训练目标,进一步提升了模型的性能。

        DeepSeek-V3模型架构的核心特点是:采用Multi-head Latent Attention (MLA) 以提高推理效率,采用DeepSeekMoE以降低训练成本。此外,还引入了多token预测(MTP)训练目标,以提升模型性能。

1.1. Multi-Head Latent Attention多头潜在注意力

  • >>核心思想:通过低秩联合压缩注意力键和值来减少推理过程中的键值缓存 (KV cache)。
  • >> 具体方法:对注意力键和值进行低秩压缩,生成压缩的潜在向量 ()。 对注意力查询也进行低秩压缩,生成压缩的潜在向量 ()。 利用旋转位置编码 (RoPE) 生成解耦的键和查询 (, )。最终将查询、键和值结合起来生成最终的注意力输出 ()。
  • >> 优势:仅需缓存压缩的潜在向量和解耦的键/查询,显著减少了KV缓存,同时保持了与标准多头注意力 (MHA) 相当的性能。

具体参数:

 

对 于 注 意 力 查 询 , 我 们 也 执 行 低 秩 压 缩 , 这 可 以 在 训 练 期 间 减 少 激 活 内 存: 

最 终 , 注 意 力 查 询  、 键 () 和 值 ( ) 被 组 合 起 来 以 生 成 最 终 的 注 意 力 输 出 uT :

1.2.无辅助损失负载均衡的 DeepSeekMoE

        对于前馈网络(FFNs),DeepSeek-V3 采用 DeepSeekMoE 架构(Dai et al., 2024)。与 GShard(Lepikhin et al., 2021)等传统 MoE 架构相比,DeepSeekMoE 使用更细粒度的专家(experts),并将部分专家隔离为共享专家。设  为第 𝑡 个 token 的 FFN 输入,我们计算其 FFN 输出  如下:

 

无 辅 助 损 失 负 载 均 衡:

对于 MoE 模型,专家负载的不均衡会导致路由崩溃(Shazeer et al., 2017),并在专家并行的场景中降低计算效率。传统的解决方案通常依赖于辅助损失(Fedus et al., 2021;Lepikhin et al., 2021)来避免负载不均衡。然而,过大的辅助损失会损害模型的性能(Wang et al., 2024a)。为了在负载均衡和模型性能之间实现更好的平衡,我们开创了一种无辅助损失的负载均衡策略(Wang et al., 2024a),以确保负载均衡。具体来说,我们为每个专家引入一个偏置项 ,并将其添加到对应的亲和度分数  中,以确定 top-K 路由:

注意,偏置项仅用于路由。门控值(gating value),即将与 FFN 输出相乘的值,仍然来自于原始的亲和度分数 。 在训练过程中,我们会持续监控每个训练步骤中整个批次的专家负载。在每个步骤结束时,如果对应的专家超载,我们将偏置项减少 𝛾;如果对应的专家负载不足,我们将其增加 𝛾,其中 𝛾 是一个超参数,称为偏置更新速度(bias update speed)。通过这种动态调整,DeepSeek-V3 在训练过程中保持专家负载平衡,并且相比于仅通过纯辅助损失来鼓励负载平衡的模型,能够实现更好的性能。 

 互 补 序 列 级 辅 助 损 失:尽管 DeepSeek-V3 主要依赖于无辅助损失策略来实现负载平衡,但为了防止单个序列内部出现极端的不平衡,我们还使用了一个互补的序列级平衡损失:

  1. 平衡因子 𝛼 是一个超参数,对于 DeepSeek-V3 来说将赋予一个极小的值;
  2. 1(·) 表示指示函数;
  3. 𝑇 表示序列中的标记数。序列级平衡损失鼓励每个序列的专家负载保持平衡。

 多 标 记 预 测 ( MTP) 实 现 方 式 的 示 意 图 。 在 每 个 深 度 , 我 们 为 每 个 标 记 的 预 测 保 留 完 整 的 因 果 链 。

节点限制路由:与 DeepSeek-V2 使用的设备限制路由类似,DeepSeek-V3 也使用了一种受限路由机制,以限制训练过程中的通信成本。简而言之,我们确保每个标记最多只会发送到 𝑀 个节点,这些节点是根据分布在每个节点上的专家的前  个亲和度分数的总和来选择的。在这个约束下,我们的 MoE 训练框架几乎可以实现完全的计算-通信重叠。

无Token丢弃:由于有效的负载平衡策略,DeepSeek-V3 在整个训练过程中保持良好的负载平衡。因此,DeepSeek-V3 在训练期间不会丢弃任何Token。此外,我们还实施了特定的部署策略,以确保推理过程中的负载平衡,因此 DeepSeek-V3 在推理过程中也不会丢弃Token。


2.多标记预测

        受到 Gloeckle 等人(2024)的启发,我们为 DeepSeek-V3 设定了一个多标记预测(MTP)目标,将预测范围扩展到每个位置的多个未来标记。一方面,MTP 目标可以密集化训练信号,可能提高数据效率。另一方面,MTP 可以使模型预先规划其表示,以便更好地预测未来的标记。图 3 展示了我们的 MTP 实现。与 Gloeckle 等人(2024)通过独立输出头并行预测 𝐷 个额外标记不同,我们依次预测额外的标记,并在每个预测深度保持完整的因果链条。在本节中,我们介绍了 MTP 实现的细节。

2.1. MTP 模块

MTP 实现使用 𝐷 个顺序模块来预测 𝐷 个额外的标记。第 𝑘 个 MTP 模块由一个共享嵌入层 Emb(·)、一个共享输出头 OutHead(·)、一个 Transformer 块 TRM𝑘 (·) 和一个投影矩阵 𝑀𝑘 ∈ 组成。对于第 𝑖 个输入标记 ,在第 𝑘 个预测深度,我们首先将第 𝑖 个标记在第 (𝑘−1) 深度的表示  ∈  与第 (𝑖+𝑘) 个标记的嵌入结合,并进行线性投影:

其中,[·; ·] 表示拼接操作。特别地,当 𝑘 = 1 时,h^{k-1}_{i}指的是由主模型给出的表示。需要注意的是,对于每个 MTP 模块,它的嵌入层与主模型共享。组合后的 h'^{k}_{i} 作为 Transformer 块第 𝑘 深度的输入,以生成当前深度的输出表示 h^{k}_{i}: 

其中,𝑇 表示输入序列的长度,𝑖:𝑗 表示切片操作(包括左右边界)。最后,以 h^{k}_{i} 作为输入,共享的输出头将计算第 𝑘 个附加预测 token 的概率分布 p^{k}_{i+1+k} ∈ \mathbb{R}^{V},其中 𝑉 是词汇表的大小:  

输出头 OutHead(·) 将表示映射到 logits,并随后应用 Softmax(·) 函数来计算第 𝑘 个附加 token 的预测概率。同时,对于每个 MTP 模块,它的输出头与主模型共享。我们保持预测的因果链的原则与 EAGLE (Li et al., 2024b) 类似,但它的主要目标是推测解码 (Leviathan et al., 2023; Xia et al., 2023),而我们利用 MTP 来改进训练。

        MTP 训练目标。在每个预测深度,我们计算交叉熵损失

其中,𝑇 表示输入序列的长度,t_{i} 表示第 𝑖 个位置的真实标记,p^{k}_{i}[t_{i}] 表示给定 𝑘-th MTP 模块的预测概率。最后,我们计算所有深度的 MTP 损失的平均值,并将其乘以一个权重因子 𝜆,得到最终的 MTP 损失 LMTP,该损失作为 DeepSeek-V3 的附加训练目标:

 MTP 在推理中的应用。我们的 MTP 策略主要旨在提升主模型的性能,因此,在推理过程中,我们可以直接丢弃 MTP 模块,主模型可以独立且正常地运行。此外,我们还可以将这些 MTP 模块重新用于推测解码,以进一步提升生成的延迟表现。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词