在家用台式机上部署 DeepSeek-R1：低成本高性能的 CPU 推理方案---不到 4 万元

2025/3/19 5:50:32 来源：https://blog.csdn.net/qq_36603091/article/details/146339812 浏览: 次关键词：在家用台式机上部署 DeepSeek-R1：低成本高性能的 CPU 推理方案---不到 4 万元

近年来，随着大模型技术的飞速发展，开源模型如 DeepSeek-R1 的出现为技术爱好者提供了更多探索人工智能的机会。然而，这类模型动辄数百亿参数，传统意义上需要昂贵的 GPU 集群才能运行，让许多个人开发者望而却步。最近，腾讯玄武实验室基于 CPU 的硬件方案优化，成功将 DeepSeek-R1-671B-Q8 模型部署在一台不到 4 万元人民币的设备上，峰值生成速度达到 7.17 tokens/s（约每秒输出 10 个汉字）。本文将详细介绍这一方案的技术细节和实现方法。

为什么 CPU 能跑动 671B 参数的大模型？

DeepSeek-R1 是一种高稀疏度的 MoE（Mixture of Experts）模型，其总参数量高达 671B，但实际推理时采用“按需激活”机制：每层包含 256 个专家（Expert），每次仅激活其中的 8 个专家。这种机制使得实际参与计算的参数量仅为约 37B，占整体参数量的 5.5%。因此，通过合理的量化和优化，纯 CPU 方案能够满足模型推理需求。