By DeepLab 编辑部 2026-06-07 开源与本地部署 0 Comments

Ollama + DeepSeek R1 本地部署完整教程：从 0 到能跑 7B 模型

DeepSeek R1（671B MoE，激活 37B）和蒸馏版（1.5B / 7B / 8B / 14B / 32B / 70B）是 2026 年最值得本地部署的开源推理模型。本文用两套常见环境实测，覆盖 90% 个人/小团队场景。

环境 A：Mac M3 Pro（36GB 统一内存）

实测能跑：DeepSeek R1 Distill Qwen 7B（Q4 量化，~5GB 内存占用），生成速度约 25 token/s。

# 1. 安装 Ollama
brew install ollama
ollama serve

# 2. 拉模型
ollama pull deepseek-r1:7b

# 3. 试跑
ollama run deepseek-r1:7b "用 Python 写一个斐波那契函数"

# 4. (可选) 装 WebUI
docker run -d -p 3000:8080   -e OLLAMA_BASE_URL=http://host.docker.internal:11434   ghcr.io/open-webui/open-webui:main

访问 http://localhost:3000 即可看到类似 ChatGPT 的界面。模型自动发现 Ollama 里所有模型。

环境 B：Linux 4C8G（NVIDIA 3060 12GB）

# 1. 安装 NVIDIA Container Toolkit（如未装）
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list |   sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# 2. Ollama + GPU
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434   --name ollama ollama/ollama

# 3. 拉模型
docker exec -it ollama ollama pull deepseek-r1:7b
docker exec -it ollama ollama pull deepseek-r1:14b  # 3060 12GB 可以

# 4. 试跑
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "解释 R1 的 GRPO 算法"
}'

进阶：用 Open WebUI 做团队共享

docker run -d -p 3000:8080   -e OLLAMA_BASE_URL=http://ollama:11434   -v open-webui:/app/backend/data   --name open-webui   --link ollama   ghcr.io/open-webui/open-webui:main

Open WebUI 支持：多用户、对话历史、文档上传 RAG、模型对比、API key 管理。**个人/小团队推荐这个组合**。

实测任务对比（DeepSeek R1 Distill 7B vs 14B vs 32B）

7B：日常问答、简单代码、写邮件 — 够用，8GB 内存
14B：复杂推理、debug、长文档摘要 — 推荐甜区，12GB 显存
32B：接近 GPT-4o 质量，24GB+ 显存
70B：基本等同满血 R1，需要 48GB+ 显存或 Apple Silicon 64GB+

常见坑

量化损失：Q4 比 FP16 慢 10-20%，但内存省一半多。个人用 Q4 完全 OK
并发限制：单 GPU 一次只服务 1 个请求；多用户需要排队或换多卡
Mac 内存压力：32GB 内存跑 14B 模型时整个系统会卡顿，建议后台用
中文质量：蒸馏版中文略输满血版，但比 Llama 系列强很多

何时该上云

团队 > 5 人 → 跑 deepseek-r1:32b 以上需要 24G+ 显存，单卡 1 万起步
需要 70B+ 满血版 → 强烈建议云（DeepSeek 官方 API：输入 1 元/百万 token）
数据完全不能出网 → 必须本地；只要允许出网，云 API 性价比远超本地

下一步建议

想跑 Agent 工作流？装 Open WebUI + 配置 MCP server
想做 RAG？装 Dify 或 AnythingLLM 接 Ollama
想跑 notebook 类任务？装 Open Interpreter
想跑视觉模型？llava、llama3.2-vision 也都支持

本地 LLM 已经从”极客玩具”变成”日常工具”。这套组合够用、稳定、可控，值得每个人花 1 小时搭起来。

Ollama + DeepSeek R1 本地部署完整教程：从 0 到能跑 7B 模型

环境 A：Mac M3 Pro（36GB 统一内存）

环境 B：Linux 4C8G（NVIDIA 3060 12GB）

进阶：用 Open WebUI 做团队共享

实测任务对比（DeepSeek R1 Distill 7B vs 14B vs 32B）

常见坑

何时该上云

下一步建议

Leave a Comment 取消回复

近期文章

近期评论

近期文章

近期评论

归档

分类

其他操作