はじめに
ローカル大規模モデルは、OpenClaw エコシステムにおいて非常に重要な選択肢です。完全に無料で、データがローカルから外に出ず、ネットワーク遅延の制約もありません。オープンソースモデルの急速な発展により、今やコンシューマー向け GPU 上でも十分な性能のモデルを実行できるようになりました。本記事では、ローカルモデルのデプロイ方法とモデル選定のアドバイスを詳しくご紹介します。
ローカル実行方式の比較
現在主流のローカルモデル実行方式は3つあります:
| 方式 | 特徴 | 対象ユーザー | 学習コスト |
|---|---|---|---|
| Ollama | コマンドラインツール、ワンクリックインストール | 開発者、Linux ユーザー | 低 |
| LM Studio | GUI、モデルストア付き | 初心者、Windows/Mac ユーザー | 非常に低い |
| llama.cpp | 低レベルランタイム、最も柔軟 | 上級ユーザー、カスタムニーズ | 高 |
Ollama(推奨)
Ollama は最も人気のあるローカルモデル実行ツールで、OpenClaw との連携が最も充実しています。
インストール方法:
# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh
# Windows
# ollama.com からインストーラーをダウンロード
基本的な使い方:
# モデルをダウンロードして実行
ollama pull llama3.3:70b
# Ollama サービスを起動(通常はインストール後に自動起動)
ollama serve
# ダウンロード済みモデルの一覧表示
ollama list
LM Studio
LM Studio はユーザーフレンドリーな GUI を提供し、ワンクリックでモデルのダウンロードと実行が可能です。
- lmstudio.ai からダウンロードしてインストール
- モデルストアでモデルを検索してダウンロード
- ローカルサーバーを起動(デフォルトポート 1234)
llama.cpp
llama.cpp は低レベルの推論エンジンで、Ollama は実際にはこれをベースに構築されています。精密な制御が必要な上級ユーザーに適しています。
# コンパイル(cmake が必要)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON # GPU アクセラレーション
cmake --build build --config Release
# モデルの実行
./build/bin/llama-server -m model.gguf --port 8080
ハードウェア要件とモデル選定
VRAM 別モデル選択
モデルサイズと VRAM 要件は直接的に関連しています。以下は異なる VRAM 条件での推奨です:
8GB VRAM(RTX 4060 / RTX 3070 等)
| モデル | パラメータ数 | 量子化レベル | VRAM 使用量 | 性能評価 |
|---|---|---|---|---|
| Llama 3.2 3B | 3B | Q8_0 | ~4 GB | 簡単な会話に対応 |
| Qwen 2.5 7B | 7B | Q4_K_M | ~5 GB | 中国語の性能が優秀 |
| Mistral 7B | 7B | Q4_K_M | ~5 GB | 英語能力が優れている |
| DeepSeek V2 Lite 16B | 16B | Q3_K_M | ~7 GB | MoEアーキテクチャ、実質的な推論が高速 |
# 8GB VRAM 推奨ダウンロード
ollama pull qwen2.5:7b-instruct-q4_K_M
16GB VRAM(RTX 4080 / RTX 4070 Ti 等)
| モデル | パラメータ数 | 量子化レベル | VRAM 使用量 | 性能評価 |
|---|---|---|---|---|
| Llama 3.3 8B | 8B | Q8_0 | ~9 GB | 高品質、推奨 |
| Qwen 2.5 14B | 14B | Q4_K_M | ~10 GB | 中国語最強クラス |
| Mistral Small 22B | 22B | Q4_K_M | ~14 GB | 多言語に強い |
| DeepSeek V3 Lite | 24B | Q4_K_M | ~15 GB | 推論能力が際立つ |
# 16GB VRAM 推奨ダウンロード
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull llama3.3:8b-instruct-q8_0
24GB VRAM(RTX 4090 / RTX 3090 等)
| モデル | パラメータ数 | 量子化レベル | VRAM 使用量 | 性能評価 |
|---|---|---|---|---|
| Llama 3.3 70B | 70B | Q4_K_M | ~42 GB* | CPU offload が必要 |
| Qwen 2.5 32B | 32B | Q4_K_M | ~20 GB | 極めて高い中国語能力 |
| DeepSeek R1 32B | 32B | Q4_K_M | ~20 GB | 推論強化モデル |
| Mistral Large 123B | 123B | Q2_K | ~48 GB* | CPU offload が必要 |
*VRAM を超えるモデルは一部をメモリにロードできますが、速度は低下します。
# 24GB VRAM 推奨ダウンロード
ollama pull qwen2.5:32b-instruct-q4_K_M
ollama pull deepseek-r1:32b
独立GPU なし / CPU 推論
独立GPU がなくても CPU 推論を使用できますが、速度は遅くなります:
# CPU 推論には小さめのモデルを推奨
ollama pull llama3.2:3b-instruct-q4_K_M
ollama pull qwen2.5:3b-instruct-q4_K_M
3B モデルには最低 16GB のメモリ、7B モデルには 32GB のメモリを推奨します。
量子化レベルの詳細
量子化とは、モデルの重みを高精度(FP16)から低精度に圧縮して VRAM 使用量を削減するプロセスです:
| 量子化レベル | 精度低下 | サイズ(FP16比) | 推奨度 |
|---|---|---|---|
| Q8_0 | 極めて小さい | ~50% | VRAM に余裕がある場合の第一選択 |
| Q6_K | 非常に小さい | ~43% | 品質とサイズの良いバランス |
| Q5_K_M | 小さい | ~37% | 推奨 |
| Q4_K_M | 中程度 | ~30% | 最も一般的、推奨 |
| Q3_K_M | やや大きい | ~23% | VRAM が逼迫している場合に使用 |
| Q2_K | 大きい | ~18% | やむを得ない場合のみ使用 |
経験則:Q4_K_M が最もコストパフォーマンスの高い選択で、VRAM に余裕がある場合は Q6_K または Q8_0 を使用してください。
OpenClaw の設定
Ollama との接続
{
models: {
ollama: {
provider: "ollama",
baseUrl: "http://localhost:11434", // Ollama のデフォルトポート
defaultModel: "qwen2.5:14b-instruct-q4_K_M",
parameters: {
temperature: 0.7,
maxTokens: 4096,
numCtx: 8192, // コンテキストウィンドウサイズ
}
}
}
}
LM Studio との接続
{
models: {
lmstudio: {
provider: "openai", // LM Studio は OpenAI API 互換
baseUrl: "http://localhost:1234/v1", // LM Studio のデフォルトアドレス
apiKey: "lm-studio", // LM Studio はキーを検証しない
defaultModel: "loaded-model", // 現在ロード中のモデルを使用
}
}
}
llama.cpp server との接続
{
models: {
llamacpp: {
provider: "openai", // OpenAI API 互換
baseUrl: "http://localhost:8080/v1",
apiKey: "none",
defaultModel: "local-model",
}
}
}
速度と品質のトレードオフ
推論速度に影響する要因
- メモリ帯域幅:RTX 4090 (1 TB/s) は RTX 4060 (272 GB/s) よりはるかに高速
- モデルサイズ:パラメータ数が多いほど遅い
- 量子化レベル:低量子化ほど高速だが品質が低下
- コンテキスト長:長い会話では遅くなる
- 同時接続数:複数ユーザーの同時利用で遅くなる
速度参考(RTX 4090、Q4_K_M 量子化)
| モデル | 生成速度 (tokens/s) | 体感 |
|---|---|---|
| 3B | 120+ | 非常に速い |
| 7B | 80-100 | 速い |
| 14B | 45-60 | スムーズ |
| 32B | 20-30 | 許容範囲 |
| 70B (部分offload) | 5-10 | やや遅い |
推奨モデルまとめ
| 用途 | 推奨モデル | 説明 |
|---|---|---|
| 中国語会話 | Qwen 2.5 (7B/14B/32B) | 中国語能力が最も高い |
| 英語会話 | Llama 3.3 (8B/70B) | 総合能力が優秀 |
| コード生成 | DeepSeek Coder V2 | コード特化 |
| 推論分析 | DeepSeek R1 (32B) | 思考連鎖推論 |
| 多言語 | Mistral (7B/22B) | 多言語でバランスが良い |
| 超低リソース | Llama 3.2 3B | 最小限の実用モデル |
よくある質問
Ollama に接続できない
# Ollama が動作しているか確認
curl http://localhost:11434/api/version
# 動作していない場合、手動で起動
ollama serve
モデルのロードに失敗する
Error: model requires more memory than available
解決方法:
- より低い量子化レベル(Q3_K_M など)を使用する
- パラメータ数がより小さいモデルに変更する
- VRAM を占有している他のプログラムを終了する
中国語の文字化け
一部のモデルは中国語のサポートが不十分です。Qwen シリーズや DeepSeek シリーズのモデルの使用を推奨します。これらは中国語に対して専門的な最適化が行われています。
まとめ
ローカル大規模モデルは、データプライバシーとゼロコスト運用を追求するユーザーにとって最適な選択肢です。Ollama は OpenClaw との連携が最も便利な方式です。VRAM が許す限り、できるだけ大きなモデルとできるだけ高い量子化レベルを選択してください。中国語シーンでは Qwen シリーズ、英語シーンでは Llama シリーズを優先してください。GPU のアップグレード予算がある場合、RTX 4090 (24GB) が1枚あれば 32B クラスの高品質モデルを十分に実行できます。