Ollama + DeepSeek R1 本地部署完整教程:从 0 到能跑 7B 模型
DeepSeek R1(671B MoE,激活 37B)和蒸馏版(1.5B / 7B / 8B / 14B / 32B / 70B)是 2026 年最值得本地部署的开源推理模型。本文用两套常见环境实测,覆盖 90% 个人/小团队场景。
环境 A:Mac M3 Pro(36GB 统一内存)
实测能跑:DeepSeek R1 Distill Qwen 7B(Q4 量化,~5GB 内存占用),生成速度约 25 token/s。
# 1. 安装 Ollama
brew install ollama
ollama serve
# 2. 拉模型
ollama pull deepseek-r1:7b
# 3. 试跑
ollama run deepseek-r1:7b "用 Python 写一个斐波那契函数"
# 4. (可选) 装 WebUI
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://host.docker.internal:11434 ghcr.io/open-webui/open-webui:main
访问 http://localhost:3000 即可看到类似 ChatGPT 的界面。模型自动发现 Ollama 里所有模型。
环境 B:Linux 4C8G(NVIDIA 3060 12GB)
# 1. 安装 NVIDIA Container Toolkit(如未装)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker
# 2. Ollama + GPU
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# 3. 拉模型
docker exec -it ollama ollama pull deepseek-r1:7b
docker exec -it ollama ollama pull deepseek-r1:14b # 3060 12GB 可以
# 4. 试跑
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "解释 R1 的 GRPO 算法"
}'
进阶:用 Open WebUI 做团队共享
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://ollama:11434 -v open-webui:/app/backend/data --name open-webui --link ollama ghcr.io/open-webui/open-webui:main
Open WebUI 支持:多用户、对话历史、文档上传 RAG、模型对比、API key 管理。**个人/小团队推荐这个组合**。
实测任务对比(DeepSeek R1 Distill 7B vs 14B vs 32B)
- 7B:日常问答、简单代码、写邮件 — 够用,8GB 内存
- 14B:复杂推理、debug、长文档摘要 — 推荐甜区,12GB 显存
- 32B:接近 GPT-4o 质量,24GB+ 显存
- 70B:基本等同满血 R1,需要 48GB+ 显存或 Apple Silicon 64GB+
常见坑
- 量化损失:Q4 比 FP16 慢 10-20%,但内存省一半多。个人用 Q4 完全 OK
- 并发限制:单 GPU 一次只服务 1 个请求;多用户需要排队或换多卡
- Mac 内存压力:32GB 内存跑 14B 模型时整个系统会卡顿,建议后台用
- 中文质量:蒸馏版中文略输满血版,但比 Llama 系列强很多
何时该上云
- 团队 > 5 人 → 跑
deepseek-r1:32b以上需要 24G+ 显存,单卡 1 万起步 - 需要 70B+ 满血版 → 强烈建议云(DeepSeek 官方 API:输入 1 元/百万 token)
- 数据完全不能出网 → 必须本地;只要允许出网,云 API 性价比远超本地
下一步建议
- 想跑 Agent 工作流?装
Open WebUI+ 配置MCP server - 想做 RAG?装
Dify或AnythingLLM接 Ollama - 想跑 notebook 类任务?装
Open Interpreter - 想跑视觉模型?
llava、llama3.2-vision也都支持
本地 LLM 已经从”极客玩具”变成”日常工具”。这套组合够用、稳定、可控,值得每个人花 1 小时搭起来。