OpenClaw本地大模型选型和部署指南

前言

本地大模型是 OpenClaw 生态中一个非常重要的选项。它完全免费、数据不离开本地、无网络延迟限制。随着开源模型的快速发展，如今在消费级显卡上运行一个性能不错的大模型已经完全可行。本文将详细介绍本地模型的部署方案和选型建议。

本地运行方案对比

目前主流的本地模型运行方案有三种：

方案	特点	适合人群	学习成本
Ollama	命令行工具，一键安装	开发者、Linux 用户	低
LM Studio	图形界面，模型商店	新手、Windows/Mac 用户	极低
llama.cpp	底层运行时，最灵活	高级用户、自定义需求	高

Ollama（推荐）

Ollama 是最受欢迎的本地模型运行工具，与 OpenClaw 集成最为完善。

安装方法：

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 从 ollama.com 下载安装程序

基本使用：

# 下载并运行模型
ollama pull llama3.3:70b

# 启动 Ollama 服务（通常安装后自动启动）
ollama serve

# 列出已下载的模型
ollama list

LM Studio

LM Studio 提供友好的图形界面，支持一键下载和运行模型。

从 lmstudio.ai 下载安装
在模型商店中搜索并下载模型
启动本地服务器（默认端口 1234）

llama.cpp

llama.cpp 是底层的推理引擎，Ollama 实际上就是基于它构建的。适合需要精细控制的高级用户。

# 编译（需要 cmake）
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON    # GPU 加速
cmake --build build --config Release

# 运行模型
./build/bin/llama-server -m model.gguf --port 8080

硬件需求与模型选型

按显存选择模型

模型大小和显存需求直接相关。以下是不同显存条件下的推荐：

8GB 显存（RTX 4060 / RTX 3070 等）

模型	参数量	量化级别	显存占用	性能评价
Llama 3.2 3B	3B	Q8_0	~4 GB	简单对话尚可
Qwen 2.5 7B	7B	Q4_K_M	~5 GB	中文表现优秀
Mistral 7B	7B	Q4_K_M	~5 GB	英文能力出色
DeepSeek V2 Lite 16B	16B	Q3_K_M	~7 GB	MoE架构，实际推理快

# 8GB 显存推荐下载
ollama pull qwen2.5:7b-instruct-q4_K_M

16GB 显存（RTX 4080 / RTX 4070 Ti 等）

模型	参数量	量化级别	显存占用	性能评价
Llama 3.3 8B	8B	Q8_0	~9 GB	高质量，推荐
Qwen 2.5 14B	14B	Q4_K_M	~10 GB	中文最强之一
Mistral Small 22B	22B	Q4_K_M	~14 GB	多语言强
DeepSeek V3 Lite	24B	Q4_K_M	~15 GB	推理能力突出

# 16GB 显存推荐下载
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull llama3.3:8b-instruct-q8_0

24GB 显存（RTX 4090 / RTX 3090 等）

模型	参数量	量化级别	显存占用	性能评价
Llama 3.3 70B	70B	Q4_K_M	~42 GB*	需要CPU offload
Qwen 2.5 32B	32B	Q4_K_M	~20 GB	极强中文能力
DeepSeek R1 32B	32B	Q4_K_M	~20 GB	推理增强模型
Mistral Large 123B	123B	Q2_K	~48 GB*	需要CPU offload

*超出显存的模型可以部分加载到内存，但速度会下降。

# 24GB 显存推荐下载
ollama pull qwen2.5:32b-instruct-q4_K_M
ollama pull deepseek-r1:32b

无独立显卡 / CPU 推理

如果没有独立显卡，也可以使用 CPU 推理，但速度较慢：

# CPU 推理推荐较小的模型
ollama pull llama3.2:3b-instruct-q4_K_M
ollama pull qwen2.5:3b-instruct-q4_K_M

建议至少 16GB 内存用于 3B 模型，32GB 内存用于 7B 模型。

量化级别详解

量化是将模型权重从高精度（FP16）压缩到低精度的过程，以减少显存占用：

量化级别	精度损失	大小 (相对 FP16)	推荐程度
Q8_0	极小	~50%	显存充足时首选
Q6_K	很小	~43%	质量和大小的好平衡
Q5_K_M	小	~37%	推荐
Q4_K_M	中等	~30%	最常用，推荐
Q3_K_M	较大	~23%	显存紧张时使用
Q2_K	大	~18%	仅在万不得已时使用

经验法则：Q4_K_M 是最佳性价比选择，在显存充足时用 Q6_K 或 Q8_0。

OpenClaw 配置

连接 Ollama

{
  models: {
    ollama: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",    // Ollama 默认端口
      defaultModel: "qwen2.5:14b-instruct-q4_K_M",
      parameters: {
        temperature: 0.7,
        maxTokens: 4096,
        numCtx: 8192,       // 上下文窗口大小
      }
    }
  }
}

连接 LM Studio

{
  models: {
    lmstudio: {
      provider: "openai",                   // LM Studio 兼容 OpenAI API
      baseUrl: "http://localhost:1234/v1",   // LM Studio 默认地址
      apiKey: "lm-studio",                   // LM Studio 不验证密钥
      defaultModel: "loaded-model",          // 使用当前加载的模型
    }
  }
}

连接 llama.cpp server

{
  models: {
    llamacpp: {
      provider: "openai",                      // 兼容 OpenAI API
      baseUrl: "http://localhost:8080/v1",
      apiKey: "none",
      defaultModel: "local-model",
    }
  }
}

速度与质量权衡

影响推理速度的因素

显存带宽：RTX 4090 (1 TB/s) 远快于 RTX 4060 (272 GB/s)
模型大小：参数越多越慢
量化级别：低量化更快但质量下降
上下文长度：长对话会变慢
并发数：多用户同时使用会变慢

速度参考（RTX 4090, Q4_K_M 量化）

模型	生成速度 (tokens/s)	体感
3B	120+	极快
7B	80-100	很快
14B	45-60	流畅
32B	20-30	可接受
70B (部分offload)	5-10	较慢

用途	推荐模型	说明
中文对话	Qwen 2.5 (7B/14B/32B)	中文能力最强
英文对话	Llama 3.3 (8B/70B)	综合能力优秀
代码生成	DeepSeek Coder V2	专精代码
推理分析	DeepSeek R1 (32B)	思维链推理
多语言	Mistral (7B/22B)	多语言均衡
极低资源	Llama 3.2 3B	最小可用模型

常见问题

Ollama 无法连接

# 检查 Ollama 是否在运行
curl http://localhost:11434/api/version

# 如果没运行，手动启动
ollama serve

模型加载失败

Error: model requires more memory than available

解决方法：

使用更低的量化级别（如 Q3_K_M）
换用参数更小的模型
关闭其他占用显存的程序

中文乱码

某些模型对中文支持不佳。推荐使用 Qwen 系列或 DeepSeek 系列模型，它们对中文有专门优化。

小结

本地大模型是追求数据隐私和零成本运行的最佳选择。Ollama 是与 OpenClaw 集成最便捷的方案。在显存允许的前提下，选择尽可能大的模型和尽可能高的量化级别。中文场景优先选 Qwen 系列，英文场景选 Llama 系列。如果预算允许升级显卡，一块 RTX 4090 (24GB) 足以运行 32B 级别的高质量模型。