DeepSeek学习笔记之——初识DeepSeek

春节假期回来已经有一周时间了，这假期综合症的症状是一点没减~~~

假期期间除了这个欢乐详和的节日气氛，就数DeepSeek最火热了！！！

什么是DeepSeek?

DeepSeek是一款由国内人工智能公司研发的大型语言模型，拥有强大的自然语言处理能力，能够理解并回答问题，还能辅助写代码、整理资料和解决复杂的数学问题。

2025年1月20日，正式发布 DeepSeek-R1，并同步开源模型权重，可商用~~~

1月27日，DeepSeek在AppStore力压ChatGPT登顶免费APP应用榜榜首，被外国友人称为“神秘的东方力量”。

官网：DeepSeek

公司：杭州深度求索人工智能基础技术研究有限公司

公司简介：

DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术。

DeepSeek公司

DeepSeek成立于2023年7月17日，是幻方量化的子公司。幻方量化是一家以人工智能和深度学习为核心驱动力的量化投资公司，专注于金融市场的数据分析和投资决策。
DeepSeek在硅谷很早就被称作“来自东方的神秘力量”，也是网上热议的“杭州六小龙”之一。

梁文锋

个人背景

出生日期与籍贯：梁文峰出生于1985年，是广东省湛江市吴川市覃巴镇米历岭村人。
教育背景：梁文峰本科就读于浙江大学电子信息工程专业，2007年考上浙江大学信息与通信工程专业研究生，2010年获得信息与通信工程硕士学位。在校期间，他专注于机器视觉研究，完成了《基于低成本PTZ摄像机的目标跟踪算法研究》的硕士论文，为其后续在人工智能领域的发展奠定了坚实的技术基础。

创业经历

量化投资领域：
- 2008年起，梁文峰开始带领团队使用机器学习等技术探索全自动量化交易。
- 2013年，他与浙大同学徐进共同创立了杭州雅克比投资管理有限公司。
- 2015年，梁文峰与徐进一起创办了杭州幻方科技有限公司（后更名为幻方量化），致力于通过数学和人工智能进行量化投资。幻方量化在2015年的股灾中凭借高频量化投资策略取得了不错的成绩。
- 2016年，幻方量化推出第一个AI模型，实现了所有量化策略的AI化转型。
- 2019年，梁文峰带领团队自主研发了“萤火一号”训练平台，总投资近2亿元，搭载了1100块GPU。同年，幻方量化的资产管理规模突破百亿元。
- 2021年，幻方量化的资金管理规模突破千亿大关，跻身国内量化私募领域的“四大天王”之列。同年，“萤火二号”的投入增加到10亿元，搭载了约1万张英伟达A100显卡。
人工智能领域：
- 2023年5月，梁文峰宣布进军通用人工智能（AGI）领域。
- 2023年7月，梁文峰创办了杭州深度求索人工智能基础技术研究有限公司（DeepSeek），正式进军通用人工智能领域。
- 2024年5月，DeepSeek发布了混合专家语言模型DeepSeek-V2。同年12月，DeepSeek-V3面世，并在多个基准测试中表现出色，训练成本相对较低。DeepSeek-V3被硅谷同行誉为“来自东方的神秘力量”。
- 2025年1月20日，DeepSeek正式发布DeepSeek-R1模型，该模型在数学、代码、自然语言推理等任务上性能比肩OpenAI GPT-4正式版。

DeepSeek-R1模型

论文：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://github.com/deepseek-ai/DeepSeek-R1

一些相关词汇：

DeepSeek-R1-Zero:第一代推理大模型，表现出出色的推理的能力，但可读性差；

DeepSeek-R1:解决DeepSeek-R1-Zero的可读性和语言混合问题，性能更好；

Janux-Pro-7B：一个多模态大模型；

MoE：Mixture-of Experts，混合专家架构；----与Transformer对比

SFT：Supervised-Fine-Tune，有监督微调；

CoT：Chain-of Thout，思维链；

Aha-Moment：aha，啊哈，惊艳时刻；

RL：Reinforcement Learning，强化学习；

RLHF：Reinforcement Learning Human Feedback，基于人类反馈的强化学习；

RLAIF：基于人工智能反馈的强化学习；

Knowledge Distillation：知识蒸馏，教师模型->学生模型，大模型->小模型；

DeepSeek-R1的逻辑推理表现

数学推理：
- DeepSeek-R1通过强化学习显著提升了在数学任务中的表现。在AIME 2024、MATH-500等数学任务中，DeepSeek-R1达到了与OpenAI-o1-1217相当的性能水平。
- 在处理数学问题时，DeepSeek-R1能够展现出强大的解析和计算能力，准确解答复杂的数学问题。
编程推理：
- 在编程任务（如Codeforces和LiveCodeBench）上，DeepSeek-R1的表现优于大多数对比模型。这显示了其在代码生成和理解方面的强大能力。
- DeepSeek-R1能够准确理解编程语言的语法和语义，生成符合要求的代码片段，并在编程任务中展现出专业级水准。
多学科基准测试：
- 在MMLU和GPQA Diamond等多学科基准测试中，DeepSeek-R1展现了卓越的知识推理能力。这证明了其具备跨领域的知识整合和推理能力。
- 在这些测试中，DeepSeek-R1能够准确理解和解答来自不同学科的问题，展现出其广泛的知识面和强大的推理能力。
中文任务表现：
- 在中文任务中，如C-Eval，DeepSeek-R1的表现显著优于其他开源模型。这显示了其在处理中文语言和理解中文语境方面的优势。
- DeepSeek-R1能够准确理解中文句子的含义和上下文关系，并在逻辑推理任务中给出正确的答案。

DeepSeek-R1的逻辑推理特点

强化学习提升推理能力：
- DeepSeek-R1通过强化学习算法（如Group Relative Policy Optimization，GRPO）显著提升了推理能力。这种算法通过群体奖励优化策略模型，引导模型按照指定格式输出推理过程。
- 在训练过程中，DeepSeek-R1通过自我演化和“灵光一现”现象自动学习复杂的推理行为，如自我验证和反思。这使其能够逐步提升复杂任务的解答能力，并在推理任务上显现突破性的性能提升。
长链式推理能力：
- DeepSeek-R1具备长链式推理能力，能够处理复杂的逻辑推理任务。这得益于其在大规模强化学习训练过程中形成的强大推理能力。
- 在处理长链式推理任务时，DeepSeek-R1能够逐步分析问题的各个部分，并给出连贯且准确的推理过程。
可读性优化：
- DeepSeek-R1在强化推理能力的同时，还优化了可读性。这使得其生成的推理过程更加清晰易懂，便于用户理解和接受。
- 在实际应用中，DeepSeek-R1的可读性优化有助于提升用户体验和满意度。

DeepSeek-V3的逻辑推理能力

混合专家模型：
- DeepSeek-V3是一款高效的混合专家（MoE）模型，旨在通过激活少量专家网络实现高效计算，平衡模型性能和算力成本。
- 在逻辑推理任务中，DeepSeek-V3能够利用混合专家模型的优势，快速准确地给出答案。
卓越表现：
- 在MMLU和GPQA等教育基准上，DeepSeek-V3超越所有开源模型，并接近GPT-4o的性能。这显示了其在逻辑推理任务中的卓越表现。
- 在中文事实性任务中，DeepSeek-V3的表现尤为突出，领先大部分闭源模型。这证明了其在处理中文语言和理解中文语境方面的强大能力。

DeepSeek在逻辑推理任务中展现了卓越的能力和特点。无论是数学推理、编程推理还是多学科基准测试，DeepSeek都表现出色。同时，其强化学习提升推理能力、长链式推理能力和可读性优化等特点也使其在逻辑推理任务中具有独特的优势。

DeepSeek与OpenAI大模型的区别

技术路线与架构设计：
- DeepSeek采用了MoE（Mixture of Experts，混合专家）架构，如DeepSeek-V3具有6710亿参数，但每次推理只激活370亿参数。这种架构通过动态选择专家子模型，显著降低计算量，适合高效推理和多任务处理。
- OpenAI的大模型（如GPT系列）则采用稠密模型架构，所有参数在每次推理时都被激活。虽然计算量大，但模型整体一致性强，适合通用任务。
参数与计算效率：
- DeepSeek的模型参数量巨大，但通过MoE架构实现高效计算，每次推理只激活部分参数，适合资源受限场景，同时保持强大能力。
- OpenAI的模型参数量也很大（如GPT-4据传有上万亿参数），所有参数在推理时都被激活，计算成本高，需要强大的硬件支持，适合对性能要求极高的场景。
数据规模与来源：
- DeepSeek在14.8万亿token的数据上进行了预训练，数据规模庞大。
- OpenAI的数据来源多样，包括书籍、网页、代码等，但GPT-4的训练数据规模未公开，预计也在数万亿token级别。

R1与GPT-4对比：

深度推理与多模态能力

深度推理：R1模型在深度推理方面表现出色，尤其在结合视觉理解与文本推理的多模态场景中。通过将Align-Anything框架与R1结合，新的多模态版模型Align-DS-V已经展现出强大的能力，在图文结合的任务中能够超越GPT-4。这意味着R1模型不仅能够理解文本信息，还能处理和分析视觉输入，作出符合实际情况的合理推理。
多模态交互：虽然GPT-4也支持多模态输入（文本+图像），但其输出依旧是纯文本，不做图像生成。而R1模型在多模态交互方面更加灵活，能够通过图像、文本、视频等多种模态的协同输出，进行高效的推理和任务执行。

训练成本与硬件要求

训练成本低：R1模型的训练成本显著低于GPT-4。数据显示，每100万tokens的输入，R1比OpenAI的模型便宜90%，输出价格更是降低了27倍左右。这使得R1模型在成本控制上表现尤为突出。
硬件要求低：相比传统模型，R1模型可以在较低性能的机器上进行运算。这对于小型企业或个人开发者来说尤为重要，因为他们可能无法承担高昂的硬件成本。

中文理解与处理能力

中文语料库：针对中文语法、成语、方言的复杂性，DeepSeek团队构建了超万亿token的高质量语料库。这使得R1模型在中文理解方面表现出色，能够准确理解中文句子的含义和上下文关系。
中文任务表现：在中文任务中，如C-Eval等评测中，R1模型的表现显著优于其他开源模型。这证明了其在处理中文语言和理解中文语境方面的优势。

具体应用场景中的表现

数学推理：R1模型在数学推理方面表现出色，在AIME 2024数学竞赛中取得了高分，并显著优于其他模型。这显示了其在处理数学问题时的强大能力。
代码推理：在编程竞赛任务中，R1模型展示了专家级水平。这证明了其在代码生成和理解方面的强大能力，对于开发者来说是一个非常有价值的工具。
个性化教学：网易有道已经全面拥抱R1模型，利用其强化学习技术加速个性化教学升级。这显示了R1模型在教育领域的应用潜力。

综上所述，R1模型在深度推理与多模态能力、训练成本与硬件要求、中文理解与处理能力以及具体应用场景中的表现等多个方面超越了GPT-4模型。这些优势使得R1模型在市场上具有更高的性价比和竞争力，并为用户提供了更加高效、准确和个性化的服务。

什么是MoE？

混合专家架构（Mixture of Experts，MoE）是一种先进的机器学习架构，它将多个专门的子模型（称为“专家”）组合在一起，并通过一个门控网络来动态地决定在处理每个输入时应该使用哪些专家。

核心组成

专家（Experts）：
- 专门针对特定任务的子模型，可以是神经网络或层的形式。
- 每个专家擅长处理特定的数据或任务，形成专业分工。
门控网络（Gating Network）：
- 一个选择器，用于决定哪些专家应该处理输入数据。
- 门控网络的输出通常是一个概率分布，表示每个专家被选中的概率。

工作原理

输入数据路由：
- 输入数据首先经过门控网络，得到每个专家模型的选择概率。
- 根据选择概率，选择一部分专家模型来处理输入数据。
专家处理与输出：
- 被选中的专家模型对输入数据进行处理，并输出相应的结果。
- 最后，将各专家模型的输出结果进行汇总，得到最终的输出。

主要优势

提高计算效率：
- 通过只激活必要的专家模型来处理输入数据，MoE能够显著降低计算量，提高训练和推理速度。
增强模型性能：
- 多个专家模型的集成使得MoE能够处理更加复杂和多样的任务，提升模型的整体性能。
灵活可扩展：
- MoE架构支持动态地增加或减少专家模型的数量，以适应不同的任务和数据集需求。
成本效益高：
- 在高计算资源投入和高计算要求的背景下，MoE能够在不牺牲精度的前提下显著降低计算成本。

应用场景

自然语言处理（NLP）：
- MoE被用于构建大规模的语言模型，如GPT系列模型的某些版本就采用了MoE架构。
- 在机器翻译、文本生成、问答系统等领域表现出色。
计算机视觉（CV）：
- 在图像分类、目标检测、图像分割等任务中，MoE架构也被证明是有效的。
- 通过引入多个专家模型来处理图像的不同部分或特征，可以提高模型的准确性和鲁棒性。
多任务学习：
- MoE非常适合于多任务学习场景，其中不同的专家可以被训练来处理不同的任务。
- 提高了整体模型的灵活性和效率。

未来发展与挑战

发展：
- 随着技术的不断进步和应用场景的不断拓展，MoE架构有望在更多领域发挥重要作用。
- 特别是在处理大规模数据集和复杂任务时，MoE架构的优势将更加明显。
挑战：
- MoE模型的复杂性和实现难度较高，需要更多的调优和维护。
- 在实际应用中，如何选择合适的专家数量和类型、如何设计有效的门控网络等问题仍需进一步研究和探索。

综上所述，混合专家架构是一种高效、可扩展的机器学习架构，通过集成多个专家模型来提高模型的性能和效率。在未来的发展中，MoE架构有望在更多领域发挥重要作用，并推动人工智能技术的不断进步。

MoE架构与Transformer架构的区别

MoE（Mixture of Experts）和Transformer架构在深度学习领域都扮演着重要角色，它们既有相似之处，也有显著的不同点。以下是对这两种架构的对比分析：

相同之处

目标一致：
- MoE和Transformer架构都旨在提高深度学习模型的性能和效率，以适应更广泛的任务和数据集。
应用广泛：
- 两者在自然语言处理（NLP）、计算机视觉（CV）等领域都有广泛应用，并推动了这些领域的技术进步。

不同之处

架构原理：
- MoE：通过引入多个专家网络和门控机制，根据输入数据动态选择合适的专家进行处理。每个专家网络专注于特定子任务，形成专业分工。门控网络负责根据输入数据决定哪些专家应该被激活。
- Transformer：基于自注意力机制，能够并行处理整个输入序列，克服了循环神经网络（RNN）在长序列处理中的不足。Transformer由编码器和解码器组成，编码器处理输入序列并生成特征表示，解码器根据这些特征表示生成目标序列。
计算效率：
- MoE：通过只激活与输入相关的部分专家，显著减少了计算开销。这使得MoE在处理大规模数据集和复杂任务时更加高效。
- Transformer：虽然Transformer能够并行处理输入序列，提高了计算效率，但在处理长序列时，其计算复杂度仍然较高。不过，通过优化算法和硬件加速，Transformer的计算效率也在不断提升。
灵活性：
- MoE：具有更高的灵活性，能够适应多样化的输入和任务。通过动态选择合适的专家，MoE可以根据不同的输入特征进行优化处理，从而展现出更强的泛化能力。
- Transformer：虽然Transformer也具有一定的灵活性，但其网络结构和计算方式相对固定，可能在一定程度上限制了其灵活性。
训练过程：
- MoE：训练过程相对复杂，需要解决专家不平衡和门控网络优化等问题。这要求使用者具备较高的技术水平和精细的设计能力。
- Transformer：训练过程相对简单，没有MoE所面临的专家不平衡和门控网络优化等挑战。这使得Transformer在实际应用中更容易部署和优化。
应用场景：
- MoE：更适用于需要处理大规模数据集和复杂任务的场景，如个性化推荐系统、大规模语言模型等。在这些场景中，MoE能够通过动态选择专家来提高模型的准确性和效率。
- Transformer：更适用于自然语言处理中的序列到序列任务，如机器翻译、文本生成等。同时，Transformer也在计算机视觉等领域展现出强大的应用能力。

综上所述，MoE和Transformer架构在深度学习领域各有优势。MoE通过引入专家网络和门控机制提高了模型的计算效率和灵活性，而Transformer则基于自注意力机制实现了并行处理和长序列建模的能力。在实际应用中，可以根据具体任务和数据集的特点选择合适的架构。

	MoE架构	Transformer架构
核心思想	通过引入多个专家网络，每个输入数据只选择和激活其中的一部分专家模型来进行处理	利用自注意力机制捕捉序列中的长距离依赖关系
结构特点	包含门控网络和多个专家网络	包含编码器-解码器结构，以及自注意力层和前馈神经网络层
计算效率	通过动态选择部分专家进行计算，可以在不牺牲性能的前提下减少实际计算量	计算量相对较大，尤其是在处理长序列时
灵活性	能够适应多样化的输入和任务，通过动态选择合适的专家进行优化处理	结构相对固定，灵活性可能受限
扩展性	可以通过增加专家的数量来扩展模型的大小和能力	扩展性相对较差，增加模型大小可能导致计算量剧增

什么是知识蒸馏（Knowledge-Distillation）

知识蒸馏（Knowledge Distillation）是一种大模型压缩和加速技术，旨在将大型模型（通常称为教师模型）所学到的知识迁移到小型模型（通常称为学生模型）中。

基本原理

知识蒸馏利用一个已经训练好的大型教师模型来指导一个小型学生模型的训练。在蒸馏过程中，教师模型和学生模型会对相同的输入数据产生输出，然后通过这些输出来调整学生模型的参数，使其输出尽可能接近教师模型的输出。这样，学生模型就能够在保持较高性能的同时，显著减少模型尺寸和推理时间。

技术详解

教师模型训练：
- 教师模型是一个大型且复杂的神经网络，它通常具有很高的预测能力。
- 在知识蒸馏之前，需要先训练好教师模型，确保其性能达到最佳。
学生模型训练：
- 学生模型是一个较小、较不复杂的神经网络。
- 在训练过程中，学生模型不仅要预测原始标签（硬目标），还要模仿教师模型的行为（软目标），如输出概率或中间特征表示。
- 为了衡量学生模型与教师模型之间的输出差异，通常会引入一个蒸馏损失函数。这个损失函数会计算学生模型输出与教师模型输出之间的差异，并将其作为训练过程中的一部分损失。
损失函数：
- 学生模型训练的损失函数通常包括两部分：硬目标损失和软目标损失。
- 硬目标损失衡量的是学生模型对实际标签的预测准确性。
- 软目标损失衡量的是学生模型与教师模型输出之间的相似性。
温度系数：
- 温度系数是控制教师模型和学生模型输出相似度的一个参数。
- 通过调整温度系数，可以平衡教师模型的输出和学生模型的输出，从而影响蒸馏效果。

应用场景

知识蒸馏在多个领域都有广泛的应用，包括但不限于：

机器翻译：在实时翻译场景中，如会议、旅游等，需要快速准确地完成语言翻译。通过知识蒸馏，可以将大型翻译模型的知识传递给小型模型，实现即时翻译功能。
文本分类：新闻网站需要对大量新闻文章进行实时分类，以便用户快速找到感兴趣的内容。知识蒸馏可以显著减少模型的参数数量和计算复杂度，同时保持较高的分类精度。
图像分类和目标检测：通过训练高性能的教师模型，然后将其知识传递给学生模型，可以提升学生模型的分类精度和检测性能。
自然语言处理：在NLP任务中，知识蒸馏可以帮助学生模型学习更加丰富和准确的语义表示，提升文本分类、情感分析等任务的性能。
跨模态知识迁移：知识蒸馏还可以用于构建统一的多模态表示模型，实现跨模态的知识迁移。

优点与缺点

优点

模型压缩与加速：知识蒸馏能够显著减小模型尺寸，同时保持较高的准确率。这对于移动设备、嵌入式系统和其他计算资源有限的环境尤为重要，因为它可以降低模型对硬件的要求，提高运行效率。
提升泛化能力：通过模仿教师模型的行为，学生模型可以学习到更丰富的知识和特征表示，从而增强其泛化能力。这意味着学生模型在未见过的数据上也能表现出较好的性能。
成本效益高：知识蒸馏在实际应用中有助于降低计算资源需求和部署成本。由于学生模型的参数数量和计算复杂度较低，因此可以在资源受限的设备上快速运行，同时保持较高的性能水平。
保护知识产权：在某些情况下，教师模型的训练可能涉及到大量的知识产权和商业机密。通过知识蒸馏，可以将教师模型的知识迁移到学生模型中，而无需公开教师模型的具体结构和参数，从而保护知识产权。

缺点

训练时间与资源消耗：知识蒸馏需要额外的时间和资源来训练教师模型，并且蒸馏过程本身也需要一定的计算资源。因此，对于时间紧迫或资源有限的场景，知识蒸馏可能不是最优选择。
性能提升的不确定性：虽然知识蒸馏在大多数情况下都能提升学生模型的性能，但并不是所有情况下都能保证性能提升。这取决于教师模型的质量、学生模型的架构以及蒸馏过程中的超参数设置等因素。
架构与超参数选择的困难：选择合适的学生模型架构和超参数对于知识蒸馏的成功至关重要。然而，这通常是一个复杂且耗时的过程，需要经验丰富的研究人员和工程师进行细致的调优。
隐私泄露风险：在某些情况下，教师模型输出的特征中可能保留了大量可以还原特权数据的信息，这可能导致隐私泄露的风险。尽管特权蒸馏等方法可以在一定程度上缓解这个问题，但仍然存在潜在的隐私安全隐患。

DeepSeek本地部署

在使用DeepSeek Web版(http://chat.deeptseek.com)或DeepSeek App时总是会遇到如下的情况：

"服务器繁忙，请稍后再试。"

这个。能理解。如此火爆，资源有限。。。

那么，考虑本地部署？这其实是一个挑战~

由于个人电脑配置的局限性，肯定不可能在本地部署一个满血版（671B）的DeepSeek-R1，一般则选用7b,8b,14b，再好点的可能跑个32b版的，效果当然也会打折扣，只不过可以减少"服务器繁忙，请稍后再试。"

以下是一个可以在本地部署DeepSeek的方案，该方案主要基于Ollama平台和LM Studio工具：

准备工作

硬件要求：
- 显卡：GTX 1060（6GB）及以上，推荐RTX 3060及以上。
- 内存容量：8GB，推荐16GB及以上。
- 存储空间：C盘剩余20GB，推荐使用NVMe固态硬盘。
网络准备：
- 确保网络连接稳定，以便下载和安装所需的软件和模型。

安装Ollama平台

访问Ollama官网：
- 打开浏览器，访问Ollama官网。
下载安装包：
- 根据操作系统选择对应的安装包进行下载。
安装Ollama：
- 双击安装包并按照提示完成安装。
验证安装：
- 打开终端（管理员），输入ollama --version，检查是否显示版本号，以验证安装是否成功。

下载并部署DeepSeek模型

访问Ollama模型库：
- 在浏览器中打开Ollama模型库，搜索DeepSeek模型。
选择并下载模型：
- 选择所需的DeepSeek模型版本（如DeepSeek-R1），并复制安装命令。
执行安装命令：
- 在终端中执行复制的安装命令，下载并安装DeepSeek模型。

安装LM Studio

访问LM Studio官网：
- 打开浏览器，访问LM Studio官网。
下载安装包：
- 根据操作系统选择对应的安装包进行下载。
安装LM Studio：
- 双击安装包并按照提示完成安装。
启动并设置LM Studio：
- 启动LM Studio后，将语言设置为简体中文。

加载并使用DeepSeek模型

导入模型：
- 在LM Studio中，点击左上角的文件夹图标，选择模型目录导入已下载的DeepSeek模型。
设置模型参数：
- 根据需要设置上下文长度、GPU负载等参数。
开始使用：
- 点击对话框开始与DeepSeek模型进行交互。

优化与调整

量化加速：
- 可以通过修改配置文件启用量化加速，以降低显存需求并提高推理速度。
多GPU分配：
- 在启动时指定多个GPU，以提高模型推理的并行处理能力。
监控与优化：
- 部署后建议首次运行时打开任务管理器观察GPU负载，确保GPU利用率和显存占用在合理范围内。

常见问题与解决方案

下载速度慢：
- 可以通过修改LM Studio的配置文件，将默认的Hugging Face镜像替换为国内镜像。
模型加载失败：
- 确保模型文件的扩展名为.gguf，并检查LM Studio是否为最新版本。
运行速度慢/GPU未调用：
- 确认已安装最新的CUDA驱动，并重启LM Studio。

通过以上步骤，您可以在本地成功部署DeepSeek模型，并进行交互使用。在实际应用中，您可以根据硬件性能、网络环境和具体需求进行灵活调整和优化。

笔记覆盖：

什么是DeepSeek

DeepSeek-R1大模型

MoE架构

Distillation知识蒸馏

本地部署

完~

DeepSeek学习笔记之——初识DeepSeek

什么是DeepSeek?

DeepSeek公司

梁文锋

个人背景

创业经历

DeepSeek-R1模型

DeepSeek-R1的逻辑推理表现

DeepSeek-R1的逻辑推理特点

DeepSeek-V3的逻辑推理能力

DeepSeek与OpenAI大模型的区别

深度推理与多模态能力

训练成本与硬件要求

中文理解与处理能力

具体应用场景中的表现

什么是MoE？

核心组成

工作原理

主要优势

应用场景

未来发展与挑战

MoE架构与Transformer架构的区别

相同之处

不同之处

什么是知识蒸馏（Knowledge-Distillation）

基本原理

技术详解

应用场景

优点与缺点

优点

缺点

DeepSeek本地部署

准备工作

安装Ollama平台

下载并部署DeepSeek模型

安装LM Studio

加载并使用DeepSeek模型

优化与调整

常见问题与解决方案

相关资讯

热文排行

最新新闻

推荐新闻

热搜词