Ollama + DeepSeek R1 本地部署完整教程:从 0 到能跑 7B 模型

DeepSeek R1(671B MoE,激活 37B)和蒸馏版(1.5B / 7B / 8B / 14B / 32B / 70B)是 2026 年最值得本地部署的开源推理模型。本文用两套常见环境实测,覆盖 90% 个人/小团队场景。

环境 A:Mac M3 Pro(36GB 统一内存)

实测能跑:DeepSeek R1 Distill Qwen 7B(Q4 量化,~5GB 内存占用),生成速度约 25 token/s。

# 1. 安装 Ollama
brew install ollama
ollama serve

# 2. 拉模型
ollama pull deepseek-r1:7b

# 3. 试跑
ollama run deepseek-r1:7b "用 Python 写一个斐波那契函数"

# 4. (可选) 装 WebUI
docker run -d -p 3000:8080   -e OLLAMA_BASE_URL=http://host.docker.internal:11434   ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 即可看到类似 ChatGPT 的界面。模型自动发现 Ollama 里所有模型。

环境 B:Linux 4C8G(NVIDIA 3060 12GB)

# 1. 安装 NVIDIA Container Toolkit(如未装)
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list |   sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# 2. Ollama + GPU
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434   --name ollama ollama/ollama

# 3. 拉模型
docker exec -it ollama ollama pull deepseek-r1:7b
docker exec -it ollama ollama pull deepseek-r1:14b  # 3060 12GB 可以

# 4. 试跑
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "解释 R1 的 GRPO 算法"
}'

进阶:用 Open WebUI 做团队共享

docker run -d -p 3000:8080   -e OLLAMA_BASE_URL=http://ollama:11434   -v open-webui:/app/backend/data   --name open-webui   --link ollama   ghcr.io/open-webui/open-webui:main

Open WebUI 支持:多用户、对话历史、文档上传 RAG、模型对比、API key 管理。**个人/小团队推荐这个组合**。

实测任务对比(DeepSeek R1 Distill 7B vs 14B vs 32B)

  • 7B:日常问答、简单代码、写邮件 — 够用,8GB 内存
  • 14B:复杂推理、debug、长文档摘要 — 推荐甜区,12GB 显存
  • 32B:接近 GPT-4o 质量,24GB+ 显存
  • 70B:基本等同满血 R1,需要 48GB+ 显存或 Apple Silicon 64GB+

常见坑

  • 量化损失:Q4 比 FP16 慢 10-20%,但内存省一半多。个人用 Q4 完全 OK
  • 并发限制:单 GPU 一次只服务 1 个请求;多用户需要排队或换多卡
  • Mac 内存压力:32GB 内存跑 14B 模型时整个系统会卡顿,建议后台用
  • 中文质量:蒸馏版中文略输满血版,但比 Llama 系列强很多

何时该上云

  • 团队 > 5 人 → 跑 deepseek-r1:32b 以上需要 24G+ 显存,单卡 1 万起步
  • 需要 70B+ 满血版 → 强烈建议云(DeepSeek 官方 API:输入 1 元/百万 token)
  • 数据完全不能出网 → 必须本地;只要允许出网,云 API 性价比远超本地

下一步建议

  • 想跑 Agent 工作流?装 Open WebUI + 配置 MCP server
  • 想做 RAG?装 DifyAnythingLLM 接 Ollama
  • 想跑 notebook 类任务?装 Open Interpreter
  • 想跑视觉模型?llavallama3.2-vision 也都支持

本地 LLM 已经从”极客玩具”变成”日常工具”。这套组合够用、稳定、可控,值得每个人花 1 小时搭起来。

Leave a Comment