DeepSeek-R1 技术报告

DeepSeek-R1 是 DeepSeek 团队推出的第一代专注推理能力的大语言模型系列，包含两个核心模型：DeepSeek-R1-Zero 和 DeepSeek-R1。两者的核心差异在于训练流程设计：

DeepSeek-R1-Zero：完全摒弃传统的监督微调（SFT），直接通过大规模强化学习（RL）从基础模型（DeepSeek-V3-Base）训练，展示了纯 RL 驱动的推理能力涌现现象，但存在可读性差、语言混合等问题。
DeepSeek-R1：在 R1-Zero 基础上，引入少量冷启动数据（数千样本）和多阶段训练（SFT + RL），显著优化了输出质量，推理性能与 OpenAI-o1-1217 相当。
此外，团队还开源了基于 Qwen 和 Llama 架构的 6 个蒸馏小模型（1.5B 至 70B），其性能超越同类开源模型，甚至接近 OpenAI-o1-mini。

(1) 纯强化学习驱动的推理涌现
DeepSeek-R1-Zero 的突破性在于验证了 无需 SFT 的 RL 路径：

(2) 冷启动与多阶段训练策略
为解决 R1-Zero 的缺陷，R1 引入四阶段流程：

(3) 高效蒸馏技术
通过将 R1 的推理数据蒸馏至小模型，团队发现：

任务类别	Benchmark	DeepSeek-R1	OpenAI-o1-1217	对比模型（如 GPT-4o）
数学推理	AIME 2024 (Pass@1)	79.8%	79.2%	GPT-4o: 9.3%
	MATH-500 (Pass@1)	97.3%	96.4%	Claude-3.5: 78.3%
代码生成	Codeforces 评级	2029 Elo	2061 Elo	GPT-4o: 759 Elo
	LiveCodeBench	65.9%	63.4%	QwQ-32B: 41.9%
知识问答	MMLU (Pass@1)	90.8%	91.8%	DeepSeek-V3: 88.5%
通用能力	AlpacaEval 2.0	87.6%	-	GPT-4o: 51.1%

开源策略：公开模型参数、训练框架（GRPO）及蒸馏流程，但未完全开放训练数据。尽管如此，已有多个高校团队成功复现模型，Meta 等企业亦紧急成立研究小组分析其技术细节。
成本优势：官方估算训练成本约 100 万至 220 万美元（含 100B Token 处理），显著低于同类模型（如 OpenAI-o1 的预训练成本）。
应用场景：通过腾讯云平台 3 分钟快速部署，赋能企业级客服、代码生成、科学计算等场景，降低中小开发者使用门槛。