欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 产业 > DeepSeek 公开新的模型权重

DeepSeek 公开新的模型权重

2025/3/16 19:13:52 来源:https://blog.csdn.net/qq_22337877/article/details/145291746  浏览:    关键词:DeepSeek 公开新的模型权重

 

 

DeepSeek - V3是一款开源大语言模型,在关键基准测试中超越了Llama 3.1 405B和GPT - 4o ,尤其在编码和数学任务中成绩优异。

除特定受限应用(军事、伤害未成年人、生成虚假信息等)外,模型权重开源,可在线下载。

工作原理

  • 混合专家架构(MoE):DeepSeek - V3是MoE型Transformer模型,有6710亿个参数,运行时370亿参数激活。相比Llama 3.1 405B,训练时间大幅缩短(279万个GPU小时,不到其1/10 ),成本仅560万美元。

  • 训练数据:使用约15万亿词元训练,编码和数学数据占比高于DeepSeek - V2。借助DeepSeek - R1和DeepSeek - V2.5的输出进行多任务微调,再用组相对策略优化的强化学习算法提升多领域性能。

  • 双词元预测:借鉴先前研究,训练模型预测下两个词元。先按常规预测第一个词元,再用额外层预测第二个词元(推理时不使用该额外层)以提升性能。

  • 多头潜在注意力:沿用DeepSeek - V2的多头潜在注意力机制,相比其他注意力变体,执行时更节省内存。

  • 专家组合模式:和DeepSeek - V2相似,结合专用(路由)专家与共享专家。针对特定输入从256个专家选8个,同时设一个处理所有输入的共享专家。

测试结果

  • 全面超越部分模型:DeepSeek测试显示,DeepSeek - V3全面超越Llama 3.1 405B和Qwen 2.5 72B ,性能与GPT - 4o相当。

  • 编码任务表现:在编码任务的七个基准测试中,DeepSeek - V3在五项中占优。但在Polyglot测试(评估多语言复杂代码生成能力)中,输给了o1 ,不过超过了Claude Sonnet 3.5。

  • 语言任务表现:在语言任务中,与Claude 3.5 Sonnet表现相近,不同任务有不同得分高低。

OpenAI的o1模型依靠能动工作流程(如反思输出、使用工具)表现出色,而DeepSeek - V3未依赖此类流程却取得优异成绩。

重要意义

  • 开源模型的竞争:开源模型对闭源模型构成挑战,开发者可自由修改和部署开源模型,有更多高质量选择。

  • 低训练成本:DeepSeek - V3训练成本极低,团队虽未详述实现方式(归功于精心工程优化),但持续改进的MoE可能是关键。此前研究也表明MoE在训练成本和性能上有优势。

若DeepSeek - V3的成果可复制,将显著影响基础模型训练成本,更多团队有能力训练类似GPT - 4o水平的模型,降低与AI巨头竞争的成本。

 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词