Deepseek-r1 面试宝典
原文地址:https://articles.zsxq.com/id_91kirfu15qxw.html
DeepSeek-R1 面试题汇总
-
DeepSeek-R1 面试题汇总
-
GRPO(Group Relative Policy Optimization)常见面试题汇总篇
-
DeepSeek-R1 DeepSeek-R1-Zero 常见面试题汇总篇
-
DeepSeek-R1 百问百搭-DeepSeek-R1 常见面试题汇总篇
-
DeepSeek-R1 论文解读篇
-
...
-
GRPO(Group Relative Policy Optimization)常见面试题汇总篇
- GRPO(Group Relative Policy Optimization)篇
🔥
-
GRPO(Group Relative Policy Optimization)算法的设计原理是什么?
-
GRPO(Group Relative Policy Optimization)算法与传统RL方法有何不同?
-
...
-
-
答案
DeepSeek-R1 DeepSeek-R1-Zero 常见面试题汇总篇
- DeepSeek-R1-Zero 篇
🔥
-
DeepSeek-R1-Zero 的基础模型是什么?
-
DeepSeek-R1-Zero 如何通过纯强化学习(RL)实现推理能力的突破?
-
...
-
-
DeepSeek-R1-Zero 篇答案
DeepSeek-R1 百问百搭-DeepSeek-R1 常见面试题汇总篇
- DeepSeek-R1 百问百搭-DeepSeek-R1篇
🔥
-
冷启动数据(cold-start data)篇
-
-
DeepSeek-R1 为什么要引入 冷启动数据(cold-start data)?
-
...
-
-
如何将长思维链(CoT)能力扩展到非STEM领域(如法律、艺术)?
-
-
DeepSeek-R1 冷启动数据(cold-start data)核心优势是什么?
-
冷启动数据规模仅为数千条,如何保证训练效果?
-
...
-
-
蒸馏技术篇
-
-
蒸馏技术的核心目标是什么?
-
为何小模型通过蒸馏能超越直接RL训练?
-
...
-
-
推理导向的强化学习阶段篇
-
-
论文提到“语言混合”(language mixing)问题,具体表现和解决思路是什么?
-
训练数据中的多语言样本如何处理?
-
...
-
-
-
DeepSeek-R1篇答案
DeepSeek-R1 论文解读篇
- DeepSeek-R1 论文解读
🔥
- AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——DeepSeek R1初体验
🔥
- AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——如何使用 Ollama 在本地运行 DeepSeek R1?
🔥
- AiGC摩天大楼 —— DeepSeek R1系列——如何使用 Ollama和DeepSeek R1搭建RAG系统?
🔥
-
DeepSeek-R1 复现 🔥
- AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——QWen2.5 基础模型 GRPO 训练 复现Deepseek-R1
🔥
-
介绍: 如何 QWen2.5 基础模型 GRPO 训练 复现Deepseek-R1。
- AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——KTransformers 实战篇—单卡RTX4090部署R1满血版
🔥
-
介绍:单卡RTX4090部署R1满血版
- AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:Logic-RL
🔥
- AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:TinyZero
🔥
- AiGC摩天大楼 —— DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:Open R1
🔥
-
DeepSeek-R1 复现——蒸馏篇 🔥
-
如何使用 蒸馏 DeepSeek-R1-Distill-Qwen-14B(一)
-
如何使用蒸馏 DeepSeek-R1-Distill-Qwen-14B (二)
-
如何利用 swift 蒸馏 中文DeepSeek-R1 小模型