DeepSeek - V3是一款开源大语言模型,在关键基准测试中超越了Llama 3.1 405B和GPT - 4o ,尤其在编码和数学任务中成绩优异。
除特定受限应用(军事、伤害未成年人、生成虚假信息等)外,模型权重开源,可在线下载。
工作原理
-
混合专家架构(MoE):DeepSeek - V3是MoE型Transformer模型,有6710亿个参数,运行时370亿参数激活。相比Llama 3.1 405B,训练时间大幅缩短(279万个GPU小时,不到其1/10 ),成本仅560万美元。
-
训练数据:使用约15万亿词元训练,编码和数学数据占比高于DeepSeek - V2。借助DeepSeek - R1和DeepSeek - V2.5的输出进行多任务微调,再用组相对策略优化的强化学习算法提升多领域性能。
-
双词元预测:借鉴先前研究,训练模型预测下两个词元。先按常规预测第一个词元,再用额外层预测第二个词元(推理时不使用该额外层)以提升性能。
-
多头潜在注意力:沿用DeepSeek - V2的多头潜在注意力机制,相比其他注意力变体,执行时更节省内存。
-
专家组合模式:和DeepSeek - V2相似,结合专用(路由)专家与共享专家。针对特定输入从256个专家选8个,同时设一个处理所有输入的共享专家。
测试结果
-
全面超越部分模型:DeepSeek测试显示,DeepSeek - V3全面超越Llama 3.1 405B和Qwen 2.5 72B ,性能与GPT - 4o相当。
-
编码任务表现:在编码任务的七个基准测试中,DeepSeek - V3在五项中占优。但在Polyglot测试(评估多语言复杂代码生成能力)中,输给了o1 ,不过超过了Claude Sonnet 3.5。
-
语言任务表现:在语言任务中,与Claude 3.5 Sonnet表现相近,不同任务有不同得分高低。
OpenAI的o1模型依靠能动工作流程(如反思输出、使用工具)表现出色,而DeepSeek - V3未依赖此类流程却取得优异成绩。
重要意义
-
开源模型的竞争:开源模型对闭源模型构成挑战,开发者可自由修改和部署开源模型,有更多高质量选择。
-
低训练成本:DeepSeek - V3训练成本极低,团队虽未详述实现方式(归功于精心工程优化),但持续改进的MoE可能是关键。此前研究也表明MoE在训练成本和性能上有优势。
若DeepSeek - V3的成果可复制,将显著影响基础模型训练成本,更多团队有能力训练类似GPT - 4o水平的模型,降低与AI巨头竞争的成本。