首先使用安装
pip install ModelScope
使用 ModelScope 下载对应的模型
modelScope download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf
第二步开始下载 ollama
git clone https://githubfast.com/ggerganov/llama.cpp # githubfast.com 可以加速下载
切换到目录,并且新增编译目录
mkdir build
cd build
开始设置编译,根据不同的系统架构可以选择不同的编译指令
cd build
# CPU 编译
cmake .. -DCMAKE_BUILD_TYPE=Release# NVIDIA GPU 加速:
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_CUDA=ON
# Apple Silicon 加速:
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_METAL=ON
开始编译
make -j$(nproc)
查询是否编译成功
# 查询是否编译成功,存在表示编译成功
ls -lh bin/llama-run
存在表示成功
可以运行模型
./bin/llama-run /mnt/workspace/.cache/modelscope/models/Qwen/QwQ-32B-GGUF/qwq-32b-q4_k_m.gguf