WINDOWS部署本地DeepSeek-R1模型
- 1. Deepseek简介
- 2. Ollama 简介
- 2 Windows部署本地模型
- 2.1 下载及安装Ollama
- 2.2 DeepSeek-R1模型下载
- 2.3 可视化UI界面下载
1. Deepseek简介
DeepSeek(深度求索)是一家中国的人工智能公司,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月,由量化投资公司幻方量化分拆独立而成。
该公司专注于开发高性能、低成本的大语言模型(LLM)和人工智能技术,目标是推动AI技术的普惠化,其核心创新包括模型架构优化、开源策略和低成本训练模式,被称为“AI界的拼多多”。
核心技术与创新
- 模型架构与算法突破
DeepSeek的模型基于Transformer架构,并引入多项创新技术:
混合专家模型(MoE):通过细粒度专家划分和共享专家策略,优化计算资源分配,提升模型效率。例如,DeepSeek-V3模型采用DeepSeekMoE架构,每个Token仅激活370亿参数(总参数6710亿),显著降低算力需求。
多头潜在注意力(MLA):采用低秩键值压缩技术,减少KV缓存占用内存,提升推理速度。
群体相对策略优化(GRPO):改进强化学习算法,降低训练成本,提高模型在数学、编程等复杂任务中的表现。
- 低成本与高效训练
DeepSeek以极低的训练成本实现高性能。例如,DeepSeek-R1模型的训练成本仅560万美元,是同类OpenAI模型的几十分之一,主要得益于FP8混合精度训练框架和动态学习率调度器等技术优化。
2. Ollama 简介
Ollama是一款开源工具,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。其官网地址为https://ollama.com/。