ホーム チュートリアル カテゴリ Skills サイトについて
ZH EN JA KO
モデル接続

OpenClawのローカル大規模モデル選定とデプロイガイド

· 11 分で読了

はじめに

ローカル大規模モデルは、OpenClaw エコシステムにおいて非常に重要な選択肢です。完全に無料で、データがローカルから外に出ず、ネットワーク遅延の制約もありません。オープンソースモデルの急速な発展により、今やコンシューマー向け GPU 上でも十分な性能のモデルを実行できるようになりました。本記事では、ローカルモデルのデプロイ方法とモデル選定のアドバイスを詳しくご紹介します。

ローカル実行方式の比較

現在主流のローカルモデル実行方式は3つあります:

方式 特徴 対象ユーザー 学習コスト
Ollama コマンドラインツール、ワンクリックインストール 開発者、Linux ユーザー
LM Studio GUI、モデルストア付き 初心者、Windows/Mac ユーザー 非常に低い
llama.cpp 低レベルランタイム、最も柔軟 上級ユーザー、カスタムニーズ

Ollama(推奨)

Ollama は最も人気のあるローカルモデル実行ツールで、OpenClaw との連携が最も充実しています。

インストール方法:

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# ollama.com からインストーラーをダウンロード

基本的な使い方:

# モデルをダウンロードして実行
ollama pull llama3.3:70b

# Ollama サービスを起動(通常はインストール後に自動起動)
ollama serve

# ダウンロード済みモデルの一覧表示
ollama list

LM Studio

LM Studio はユーザーフレンドリーな GUI を提供し、ワンクリックでモデルのダウンロードと実行が可能です。

  1. lmstudio.ai からダウンロードしてインストール
  2. モデルストアでモデルを検索してダウンロード
  3. ローカルサーバーを起動(デフォルトポート 1234)

llama.cpp

llama.cpp は低レベルの推論エンジンで、Ollama は実際にはこれをベースに構築されています。精密な制御が必要な上級ユーザーに適しています。

# コンパイル(cmake が必要)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON    # GPU アクセラレーション
cmake --build build --config Release

# モデルの実行
./build/bin/llama-server -m model.gguf --port 8080

ハードウェア要件とモデル選定

VRAM 別モデル選択

モデルサイズと VRAM 要件は直接的に関連しています。以下は異なる VRAM 条件での推奨です:

8GB VRAM(RTX 4060 / RTX 3070 等)

モデル パラメータ数 量子化レベル VRAM 使用量 性能評価
Llama 3.2 3B 3B Q8_0 ~4 GB 簡単な会話に対応
Qwen 2.5 7B 7B Q4_K_M ~5 GB 中国語の性能が優秀
Mistral 7B 7B Q4_K_M ~5 GB 英語能力が優れている
DeepSeek V2 Lite 16B 16B Q3_K_M ~7 GB MoEアーキテクチャ、実質的な推論が高速
# 8GB VRAM 推奨ダウンロード
ollama pull qwen2.5:7b-instruct-q4_K_M

16GB VRAM(RTX 4080 / RTX 4070 Ti 等)

モデル パラメータ数 量子化レベル VRAM 使用量 性能評価
Llama 3.3 8B 8B Q8_0 ~9 GB 高品質、推奨
Qwen 2.5 14B 14B Q4_K_M ~10 GB 中国語最強クラス
Mistral Small 22B 22B Q4_K_M ~14 GB 多言語に強い
DeepSeek V3 Lite 24B Q4_K_M ~15 GB 推論能力が際立つ
# 16GB VRAM 推奨ダウンロード
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull llama3.3:8b-instruct-q8_0

24GB VRAM(RTX 4090 / RTX 3090 等)

モデル パラメータ数 量子化レベル VRAM 使用量 性能評価
Llama 3.3 70B 70B Q4_K_M ~42 GB* CPU offload が必要
Qwen 2.5 32B 32B Q4_K_M ~20 GB 極めて高い中国語能力
DeepSeek R1 32B 32B Q4_K_M ~20 GB 推論強化モデル
Mistral Large 123B 123B Q2_K ~48 GB* CPU offload が必要

*VRAM を超えるモデルは一部をメモリにロードできますが、速度は低下します。

# 24GB VRAM 推奨ダウンロード
ollama pull qwen2.5:32b-instruct-q4_K_M
ollama pull deepseek-r1:32b

独立GPU なし / CPU 推論

独立GPU がなくても CPU 推論を使用できますが、速度は遅くなります:

# CPU 推論には小さめのモデルを推奨
ollama pull llama3.2:3b-instruct-q4_K_M
ollama pull qwen2.5:3b-instruct-q4_K_M

3B モデルには最低 16GB のメモリ、7B モデルには 32GB のメモリを推奨します。

量子化レベルの詳細

量子化とは、モデルの重みを高精度(FP16)から低精度に圧縮して VRAM 使用量を削減するプロセスです:

量子化レベル 精度低下 サイズ(FP16比) 推奨度
Q8_0 極めて小さい ~50% VRAM に余裕がある場合の第一選択
Q6_K 非常に小さい ~43% 品質とサイズの良いバランス
Q5_K_M 小さい ~37% 推奨
Q4_K_M 中程度 ~30% 最も一般的、推奨
Q3_K_M やや大きい ~23% VRAM が逼迫している場合に使用
Q2_K 大きい ~18% やむを得ない場合のみ使用

経験則:Q4_K_M が最もコストパフォーマンスの高い選択で、VRAM に余裕がある場合は Q6_K または Q8_0 を使用してください。

OpenClaw の設定

Ollama との接続

{
  models: {
    ollama: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",    // Ollama のデフォルトポート
      defaultModel: "qwen2.5:14b-instruct-q4_K_M",
      parameters: {
        temperature: 0.7,
        maxTokens: 4096,
        numCtx: 8192,       // コンテキストウィンドウサイズ
      }
    }
  }
}

LM Studio との接続

{
  models: {
    lmstudio: {
      provider: "openai",                   // LM Studio は OpenAI API 互換
      baseUrl: "http://localhost:1234/v1",   // LM Studio のデフォルトアドレス
      apiKey: "lm-studio",                   // LM Studio はキーを検証しない
      defaultModel: "loaded-model",          // 現在ロード中のモデルを使用
    }
  }
}

llama.cpp server との接続

{
  models: {
    llamacpp: {
      provider: "openai",                      // OpenAI API 互換
      baseUrl: "http://localhost:8080/v1",
      apiKey: "none",
      defaultModel: "local-model",
    }
  }
}

速度と品質のトレードオフ

推論速度に影響する要因

  1. メモリ帯域幅:RTX 4090 (1 TB/s) は RTX 4060 (272 GB/s) よりはるかに高速
  2. モデルサイズ:パラメータ数が多いほど遅い
  3. 量子化レベル:低量子化ほど高速だが品質が低下
  4. コンテキスト長:長い会話では遅くなる
  5. 同時接続数:複数ユーザーの同時利用で遅くなる

速度参考(RTX 4090、Q4_K_M 量子化)

モデル 生成速度 (tokens/s) 体感
3B 120+ 非常に速い
7B 80-100 速い
14B 45-60 スムーズ
32B 20-30 許容範囲
70B (部分offload) 5-10 やや遅い

推奨モデルまとめ

用途 推奨モデル 説明
中国語会話 Qwen 2.5 (7B/14B/32B) 中国語能力が最も高い
英語会話 Llama 3.3 (8B/70B) 総合能力が優秀
コード生成 DeepSeek Coder V2 コード特化
推論分析 DeepSeek R1 (32B) 思考連鎖推論
多言語 Mistral (7B/22B) 多言語でバランスが良い
超低リソース Llama 3.2 3B 最小限の実用モデル

よくある質問

Ollama に接続できない

# Ollama が動作しているか確認
curl http://localhost:11434/api/version

# 動作していない場合、手動で起動
ollama serve

モデルのロードに失敗する

Error: model requires more memory than available

解決方法:

  • より低い量子化レベル(Q3_K_M など)を使用する
  • パラメータ数がより小さいモデルに変更する
  • VRAM を占有している他のプログラムを終了する

中国語の文字化け

一部のモデルは中国語のサポートが不十分です。Qwen シリーズや DeepSeek シリーズのモデルの使用を推奨します。これらは中国語に対して専門的な最適化が行われています。

まとめ

ローカル大規模モデルは、データプライバシーとゼロコスト運用を追求するユーザーにとって最適な選択肢です。Ollama は OpenClaw との連携が最も便利な方式です。VRAM が許す限り、できるだけ大きなモデルとできるだけ高い量子化レベルを選択してください。中国語シーンでは Qwen シリーズ、英語シーンでは Llama シリーズを優先してください。GPU のアップグレード予算がある場合、RTX 4090 (24GB) が1枚あれば 32B クラスの高品質モデルを十分に実行できます。

OpenClawは無料のオープンソースAIアシスタント。WhatsApp、Telegram、Discordなど多数のプラットフォームに対応