首页 教程 分类 Skills下载 关于
ZH EN JA KO
模型接入

OpenClaw本地大模型选型和部署指南

· 9 分钟

前言

本地大模型是 OpenClaw 生态中一个非常重要的选项。它完全免费、数据不离开本地、无网络延迟限制。随着开源模型的快速发展,如今在消费级显卡上运行一个性能不错的大模型已经完全可行。本文将详细介绍本地模型的部署方案和选型建议。

本地运行方案对比

目前主流的本地模型运行方案有三种:

方案 特点 适合人群 学习成本
Ollama 命令行工具,一键安装 开发者、Linux 用户
LM Studio 图形界面,模型商店 新手、Windows/Mac 用户 极低
llama.cpp 底层运行时,最灵活 高级用户、自定义需求

Ollama(推荐)

Ollama 是最受欢迎的本地模型运行工具,与 OpenClaw 集成最为完善。

安装方法:

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# 从 ollama.com 下载安装程序

基本使用:

# 下载并运行模型
ollama pull llama3.3:70b

# 启动 Ollama 服务(通常安装后自动启动)
ollama serve

# 列出已下载的模型
ollama list

LM Studio

LM Studio 提供友好的图形界面,支持一键下载和运行模型。

  1. lmstudio.ai 下载安装
  2. 在模型商店中搜索并下载模型
  3. 启动本地服务器(默认端口 1234)

llama.cpp

llama.cpp 是底层的推理引擎,Ollama 实际上就是基于它构建的。适合需要精细控制的高级用户。

# 编译(需要 cmake)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON    # GPU 加速
cmake --build build --config Release

# 运行模型
./build/bin/llama-server -m model.gguf --port 8080

硬件需求与模型选型

按显存选择模型

模型大小和显存需求直接相关。以下是不同显存条件下的推荐:

8GB 显存(RTX 4060 / RTX 3070 等)

模型 参数量 量化级别 显存占用 性能评价
Llama 3.2 3B 3B Q8_0 ~4 GB 简单对话尚可
Qwen 2.5 7B 7B Q4_K_M ~5 GB 中文表现优秀
Mistral 7B 7B Q4_K_M ~5 GB 英文能力出色
DeepSeek V2 Lite 16B 16B Q3_K_M ~7 GB MoE架构,实际推理快
# 8GB 显存推荐下载
ollama pull qwen2.5:7b-instruct-q4_K_M

16GB 显存(RTX 4080 / RTX 4070 Ti 等)

模型 参数量 量化级别 显存占用 性能评价
Llama 3.3 8B 8B Q8_0 ~9 GB 高质量,推荐
Qwen 2.5 14B 14B Q4_K_M ~10 GB 中文最强之一
Mistral Small 22B 22B Q4_K_M ~14 GB 多语言强
DeepSeek V3 Lite 24B Q4_K_M ~15 GB 推理能力突出
# 16GB 显存推荐下载
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull llama3.3:8b-instruct-q8_0

24GB 显存(RTX 4090 / RTX 3090 等)

模型 参数量 量化级别 显存占用 性能评价
Llama 3.3 70B 70B Q4_K_M ~42 GB* 需要CPU offload
Qwen 2.5 32B 32B Q4_K_M ~20 GB 极强中文能力
DeepSeek R1 32B 32B Q4_K_M ~20 GB 推理增强模型
Mistral Large 123B 123B Q2_K ~48 GB* 需要CPU offload

*超出显存的模型可以部分加载到内存,但速度会下降。

# 24GB 显存推荐下载
ollama pull qwen2.5:32b-instruct-q4_K_M
ollama pull deepseek-r1:32b

无独立显卡 / CPU 推理

如果没有独立显卡,也可以使用 CPU 推理,但速度较慢:

# CPU 推理推荐较小的模型
ollama pull llama3.2:3b-instruct-q4_K_M
ollama pull qwen2.5:3b-instruct-q4_K_M

建议至少 16GB 内存用于 3B 模型,32GB 内存用于 7B 模型。

量化级别详解

量化是将模型权重从高精度(FP16)压缩到低精度的过程,以减少显存占用:

量化级别 精度损失 大小 (相对 FP16) 推荐程度
Q8_0 极小 ~50% 显存充足时首选
Q6_K 很小 ~43% 质量和大小的好平衡
Q5_K_M ~37% 推荐
Q4_K_M 中等 ~30% 最常用,推荐
Q3_K_M 较大 ~23% 显存紧张时使用
Q2_K ~18% 仅在万不得已时使用

经验法则:Q4_K_M 是最佳性价比选择,在显存充足时用 Q6_K 或 Q8_0。

OpenClaw 配置

连接 Ollama

{
  models: {
    ollama: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",    // Ollama 默认端口
      defaultModel: "qwen2.5:14b-instruct-q4_K_M",
      parameters: {
        temperature: 0.7,
        maxTokens: 4096,
        numCtx: 8192,       // 上下文窗口大小
      }
    }
  }
}

连接 LM Studio

{
  models: {
    lmstudio: {
      provider: "openai",                   // LM Studio 兼容 OpenAI API
      baseUrl: "http://localhost:1234/v1",   // LM Studio 默认地址
      apiKey: "lm-studio",                   // LM Studio 不验证密钥
      defaultModel: "loaded-model",          // 使用当前加载的模型
    }
  }
}

连接 llama.cpp server

{
  models: {
    llamacpp: {
      provider: "openai",                      // 兼容 OpenAI API
      baseUrl: "http://localhost:8080/v1",
      apiKey: "none",
      defaultModel: "local-model",
    }
  }
}

速度与质量权衡

影响推理速度的因素

  1. 显存带宽:RTX 4090 (1 TB/s) 远快于 RTX 4060 (272 GB/s)
  2. 模型大小:参数越多越慢
  3. 量化级别:低量化更快但质量下降
  4. 上下文长度:长对话会变慢
  5. 并发数:多用户同时使用会变慢

速度参考(RTX 4090, Q4_K_M 量化)

模型 生成速度 (tokens/s) 体感
3B 120+ 极快
7B 80-100 很快
14B 45-60 流畅
32B 20-30 可接受
70B (部分offload) 5-10 较慢

推荐模型总结

用途 推荐模型 说明
中文对话 Qwen 2.5 (7B/14B/32B) 中文能力最强
英文对话 Llama 3.3 (8B/70B) 综合能力优秀
代码生成 DeepSeek Coder V2 专精代码
推理分析 DeepSeek R1 (32B) 思维链推理
多语言 Mistral (7B/22B) 多语言均衡
极低资源 Llama 3.2 3B 最小可用模型

常见问题

Ollama 无法连接

# 检查 Ollama 是否在运行
curl http://localhost:11434/api/version

# 如果没运行,手动启动
ollama serve

模型加载失败

Error: model requires more memory than available

解决方法:

  • 使用更低的量化级别(如 Q3_K_M)
  • 换用参数更小的模型
  • 关闭其他占用显存的程序

中文乱码

某些模型对中文支持不佳。推荐使用 Qwen 系列或 DeepSeek 系列模型,它们对中文有专门优化。

小结

本地大模型是追求数据隐私和零成本运行的最佳选择。Ollama 是与 OpenClaw 集成最便捷的方案。在显存允许的前提下,选择尽可能大的模型和尽可能高的量化级别。中文场景优先选 Qwen 系列,英文场景选 Llama 系列。如果预算允许升级显卡,一块 RTX 4090 (24GB) 足以运行 32B 级别的高质量模型。

OpenClaw 是开源免费的个人AI助手,支持 WhatsApp、Telegram、Discord 等多平台接入