DeepSeek 公开新的模型权重

2025/3/16 19:13:52 来源：https://blog.csdn.net/qq_22337877/article/details/145291746 浏览: 次关键词：DeepSeek 公开新的模型权重

DeepSeek - V3是一款开源大语言模型，在关键基准测试中超越了Llama 3.1 405B和GPT - 4o ，尤其在编码和数学任务中成绩优异。

除特定受限应用（军事、伤害未成年人、生成虚假信息等）外，模型权重开源，可在线下载。

工作原理

混合专家架构（MoE）：DeepSeek - V3是MoE型Transformer模型，有6710亿个参数，运行时370亿参数激活。相比Llama 3.1 405B，训练时间大幅缩短（279万个GPU小时，不到其1/10 ），成本仅560万美元。
训练数据：使用约15万亿词元训练，编码和数学数据占比高于DeepSeek - V2。借助DeepSeek - R1和DeepSeek - V2.5的输出进行多任务微调，再用组相对策略优化的强化学习算法提升多领域性能。
双词元预测：借鉴先前研究，训练模型预测下两个词元。先按常规预测第一个词元，再用额外层预测第二个词元（推理时不使用该额外层）以提升性能。
多头潜在注意力：沿用DeepSeek - V2的多头潜在注意力机制，相比其他注意力变体，执行时更节省内存。
专家组合模式：和DeepSeek - V2相似，结合专用（路由）专家与共享专家。针对特定输入从256个专家选8个，同时设一个处理所有输入的共享专家。

测试结果

全面超越部分模型：DeepSeek测试显示，DeepSeek - V3全面超越Llama 3.1 405B和Qwen 2.5 72B ，性能与GPT - 4o相当。
编码任务表现：在编码任务的七个基准测试中，DeepSeek - V3在五项中占优。但在Polyglot测试（评估多语言复杂代码生成能力）中，输给了o1 ，不过超过了Claude Sonnet 3.5。
语言任务表现：在语言任务中，与Claude 3.5 Sonnet表现相近，不同任务有不同得分高低。

OpenAI的o1模型依靠能动工作流程（如反思输出、使用工具）表现出色，而DeepSeek - V3未依赖此类流程却取得优异成绩。

重要意义

开源模型的竞争：开源模型对闭源模型构成挑战，开发者可自由修改和部署开源模型，有更多高质量选择。
低训练成本：DeepSeek - V3训练成本极低，团队虽未详述实现方式（归功于精心工程优化），但持续改进的MoE可能是关键。此前研究也表明MoE在训练成本和性能上有优势。

若DeepSeek - V3的成果可复制，将显著影响基础模型训练成本，更多团队有能力训练类似GPT - 4o水平的模型，降低与AI巨头竞争的成本。

相关资讯