前言
本地大模型是 OpenClaw 生态中一个非常重要的选项。它完全免费、数据不离开本地、无网络延迟限制。随着开源模型的快速发展,如今在消费级显卡上运行一个性能不错的大模型已经完全可行。本文将详细介绍本地模型的部署方案和选型建议。
本地运行方案对比
目前主流的本地模型运行方案有三种:
| 方案 | 特点 | 适合人群 | 学习成本 |
|---|---|---|---|
| Ollama | 命令行工具,一键安装 | 开发者、Linux 用户 | 低 |
| LM Studio | 图形界面,模型商店 | 新手、Windows/Mac 用户 | 极低 |
| llama.cpp | 底层运行时,最灵活 | 高级用户、自定义需求 | 高 |
Ollama(推荐)
Ollama 是最受欢迎的本地模型运行工具,与 OpenClaw 集成最为完善。
安装方法:
# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# 从 ollama.com 下载安装程序
基本使用:
# 下载并运行模型
ollama pull llama3.3:70b
# 启动 Ollama 服务(通常安装后自动启动)
ollama serve
# 列出已下载的模型
ollama list
LM Studio
LM Studio 提供友好的图形界面,支持一键下载和运行模型。
- 从 lmstudio.ai 下载安装
- 在模型商店中搜索并下载模型
- 启动本地服务器(默认端口 1234)
llama.cpp
llama.cpp 是底层的推理引擎,Ollama 实际上就是基于它构建的。适合需要精细控制的高级用户。
# 编译(需要 cmake)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # GPU 加速
cmake --build build --config Release
# 运行模型
./build/bin/llama-server -m model.gguf --port 8080
硬件需求与模型选型
按显存选择模型
模型大小和显存需求直接相关。以下是不同显存条件下的推荐:
8GB 显存(RTX 4060 / RTX 3070 等)
| 模型 | 参数量 | 量化级别 | 显存占用 | 性能评价 |
|---|---|---|---|---|
| Llama 3.2 3B | 3B | Q8_0 | ~4 GB | 简单对话尚可 |
| Qwen 2.5 7B | 7B | Q4_K_M | ~5 GB | 中文表现优秀 |
| Mistral 7B | 7B | Q4_K_M | ~5 GB | 英文能力出色 |
| DeepSeek V2 Lite 16B | 16B | Q3_K_M | ~7 GB | MoE架构,实际推理快 |
# 8GB 显存推荐下载
ollama pull qwen2.5:7b-instruct-q4_K_M
16GB 显存(RTX 4080 / RTX 4070 Ti 等)
| 模型 | 参数量 | 量化级别 | 显存占用 | 性能评价 |
|---|---|---|---|---|
| Llama 3.3 8B | 8B | Q8_0 | ~9 GB | 高质量,推荐 |
| Qwen 2.5 14B | 14B | Q4_K_M | ~10 GB | 中文最强之一 |
| Mistral Small 22B | 22B | Q4_K_M | ~14 GB | 多语言强 |
| DeepSeek V3 Lite | 24B | Q4_K_M | ~15 GB | 推理能力突出 |
# 16GB 显存推荐下载
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull llama3.3:8b-instruct-q8_0
24GB 显存(RTX 4090 / RTX 3090 等)
| 模型 | 参数量 | 量化级别 | 显存占用 | 性能评价 |
|---|---|---|---|---|
| Llama 3.3 70B | 70B | Q4_K_M | ~42 GB* | 需要CPU offload |
| Qwen 2.5 32B | 32B | Q4_K_M | ~20 GB | 极强中文能力 |
| DeepSeek R1 32B | 32B | Q4_K_M | ~20 GB | 推理增强模型 |
| Mistral Large 123B | 123B | Q2_K | ~48 GB* | 需要CPU offload |
*超出显存的模型可以部分加载到内存,但速度会下降。
# 24GB 显存推荐下载
ollama pull qwen2.5:32b-instruct-q4_K_M
ollama pull deepseek-r1:32b
无独立显卡 / CPU 推理
如果没有独立显卡,也可以使用 CPU 推理,但速度较慢:
# CPU 推理推荐较小的模型
ollama pull llama3.2:3b-instruct-q4_K_M
ollama pull qwen2.5:3b-instruct-q4_K_M
建议至少 16GB 内存用于 3B 模型,32GB 内存用于 7B 模型。
量化级别详解
量化是将模型权重从高精度(FP16)压缩到低精度的过程,以减少显存占用:
| 量化级别 | 精度损失 | 大小 (相对 FP16) | 推荐程度 |
|---|---|---|---|
| Q8_0 | 极小 | ~50% | 显存充足时首选 |
| Q6_K | 很小 | ~43% | 质量和大小的好平衡 |
| Q5_K_M | 小 | ~37% | 推荐 |
| Q4_K_M | 中等 | ~30% | 最常用,推荐 |
| Q3_K_M | 较大 | ~23% | 显存紧张时使用 |
| Q2_K | 大 | ~18% | 仅在万不得已时使用 |
经验法则:Q4_K_M 是最佳性价比选择,在显存充足时用 Q6_K 或 Q8_0。
OpenClaw 配置
连接 Ollama
{
models: {
ollama: {
provider: "ollama",
baseUrl: "http://localhost:11434", // Ollama 默认端口
defaultModel: "qwen2.5:14b-instruct-q4_K_M",
parameters: {
temperature: 0.7,
maxTokens: 4096,
numCtx: 8192, // 上下文窗口大小
}
}
}
}
连接 LM Studio
{
models: {
lmstudio: {
provider: "openai", // LM Studio 兼容 OpenAI API
baseUrl: "http://localhost:1234/v1", // LM Studio 默认地址
apiKey: "lm-studio", // LM Studio 不验证密钥
defaultModel: "loaded-model", // 使用当前加载的模型
}
}
}
连接 llama.cpp server
{
models: {
llamacpp: {
provider: "openai", // 兼容 OpenAI API
baseUrl: "http://localhost:8080/v1",
apiKey: "none",
defaultModel: "local-model",
}
}
}
速度与质量权衡
影响推理速度的因素
- 显存带宽:RTX 4090 (1 TB/s) 远快于 RTX 4060 (272 GB/s)
- 模型大小:参数越多越慢
- 量化级别:低量化更快但质量下降
- 上下文长度:长对话会变慢
- 并发数:多用户同时使用会变慢
速度参考(RTX 4090, Q4_K_M 量化)
| 模型 | 生成速度 (tokens/s) | 体感 |
|---|---|---|
| 3B | 120+ | 极快 |
| 7B | 80-100 | 很快 |
| 14B | 45-60 | 流畅 |
| 32B | 20-30 | 可接受 |
| 70B (部分offload) | 5-10 | 较慢 |
推荐模型总结
| 用途 | 推荐模型 | 说明 |
|---|---|---|
| 中文对话 | Qwen 2.5 (7B/14B/32B) | 中文能力最强 |
| 英文对话 | Llama 3.3 (8B/70B) | 综合能力优秀 |
| 代码生成 | DeepSeek Coder V2 | 专精代码 |
| 推理分析 | DeepSeek R1 (32B) | 思维链推理 |
| 多语言 | Mistral (7B/22B) | 多语言均衡 |
| 极低资源 | Llama 3.2 3B | 最小可用模型 |
常见问题
Ollama 无法连接
# 检查 Ollama 是否在运行
curl http://localhost:11434/api/version
# 如果没运行,手动启动
ollama serve
模型加载失败
Error: model requires more memory than available
解决方法:
- 使用更低的量化级别(如 Q3_K_M)
- 换用参数更小的模型
- 关闭其他占用显存的程序
中文乱码
某些模型对中文支持不佳。推荐使用 Qwen 系列或 DeepSeek 系列模型,它们对中文有专门优化。
小结
本地大模型是追求数据隐私和零成本运行的最佳选择。Ollama 是与 OpenClaw 集成最便捷的方案。在显存允许的前提下,选择尽可能大的模型和尽可能高的量化级别。中文场景优先选 Qwen 系列,英文场景选 Llama 系列。如果预算允许升级显卡,一块 RTX 4090 (24GB) 足以运行 32B 级别的高质量模型。