OpenClaw対応AIモデルの総合比較評価

はじめに

OpenClaw は、Anthropic Claude、OpenAI GPT、Google Gemini、Ollama ローカルモデル、DeepSeek、Mistral など、複数の AI モデルプロバイダーへの接続をサポートしています。これだけ多くの選択肢があると、どれを選ぶべきかわからないユーザーも多いでしょう。本記事では、複数の観点から総合的に比較し、ご自身に最適なモデルの組み合わせを見つけるお手伝いをします。

総合評価表

以下は2026年3月時点の各主要モデルの総合評価です：

モデル	総合品質	中国語能力	コード能力	推論能力	応答速度	費用
Claude Sonnet 4	★★★★★	★★★★★	★★★★★	★★★★★	★★★★☆	中〜高
Claude Haiku 3.5	★★★★☆	★★★★☆	★★★★☆	★★★☆☆	★★★★★	低
GPT-4o	★★★★★	★★★★☆	★★★★★	★★★★☆	★★★★☆	中
GPT-4o mini	★★★★☆	★★★★☆	★★★★☆	★★★☆☆	★★★★★	極低
o3	★★★★★	★★★★☆	★★★★★	★★★★★	★★★☆☆	高
Gemini 2.5 Pro	★★★★★	★★★★☆	★★★★★	★★★★★	★★★★☆	中
Gemini 2.5 Flash	★★★★☆	★★★★☆	★★★★☆	★★★★☆	★★★★★	低
DeepSeek V3	★★★★☆	★★★★★	★★★★★	★★★★☆	★★★★☆	極低
Qwen 2.5 72B	★★★★☆	★★★★★	★★★★☆	★★★★☆	★★★☆☆	低
Llama 3.3 70B	★★★★☆	★★★☆☆	★★★★☆	★★★★☆	★★★☆☆	無料*
Mistral Large	★★★★☆	★★★★☆	★★★★☆	★★★★☆	★★★★☆	中

*ローカルデプロイ時は無料。API プロバイダー経由の利用には料金がかかります。

費用の詳細比較

API 価格表（100万トークンあたり）

モデル	入力価格	出力価格	1000回の会話あたりの推定費用
Claude Sonnet 4	$3.00	$15.00	~$18.00
Claude Haiku 3.5	$0.80	$4.00	~$4.80
GPT-4o	$2.50	$10.00	~$12.50
GPT-4o mini	$0.15	$0.60	~$0.75
o3	$10.00	$40.00	~$50.00
Gemini 2.5 Pro	$1.25	$10.00	~$11.25
Gemini 2.5 Flash	$0.15	$0.60	~$0.75
DeepSeek V3	$0.14	$0.28	~$0.42
Mistral Large	$2.00	$6.00	~$8.00
ローカルモデル (Ollama)	$0	$0	$0（電気代を除く）

*1回の会話あたり平均入力500トークン、出力500トークンと仮定。

月額費用の見積もり

1日100回の会話、月間3000回と仮定：

モデルプラン	月額費用	対象ユーザー
GPT-4o mini のみ	~$2.25	予算が極めて限られている
Gemini 2.5 Flash	~$2.25	無料枠内でゼロコストの可能性
DeepSeek V3	~$1.26	究極のコストパフォーマンス
GPT-4o	~$37.50	中程度の予算
Claude Sonnet 4	~$54.00	最高品質を追求
ローカル Qwen 2.5 32B	$0	独立GPU を持つユーザー

各観点の詳細比較

中国語能力の評価

中国語シーンでは、モデル間の性能差が顕著です：

テスト項目	Claude Sonnet 4	GPT-4o	Gemini 2.5 Pro	DeepSeek V3	Qwen 2.5 72B
中国語作文	優秀	良好	良好	優秀	優秀
中国語理解	優秀	優秀	良好	優秀	優秀
慣用句の運用	良好	普通	普通	優秀	優秀
古文翻訳	良好	良好	普通	優秀	優秀
中国語コードコメント	優秀	優秀	良好	優秀	良好

中国語シーンの推奨順位： DeepSeek V3 ≈ Qwen 2.5 ≈ Claude Sonnet 4 > GPT-4o > Gemini 2.5 Pro

コード能力の評価

テスト項目	Claude Sonnet 4	GPT-4o	o3	Gemini 2.5 Pro	DeepSeek V3
コード生成	優秀	優秀	優秀	優秀	優秀
バグ修正	優秀	良好	優秀	良好	良好
コード解説	優秀	優秀	優秀	優秀	良好
マルチファイル理解	優秀	良好	良好	優秀	良好
ユニットテスト	優秀	良好	優秀	良好	良好

コードシーンの推奨順位： Claude Sonnet 4 ≈ o3 > GPT-4o ≈ Gemini 2.5 Pro > DeepSeek V3

推論能力の評価

テスト項目	Claude Sonnet 4	o3	Gemini 2.5 Pro	DeepSeek R1	GPT-4o
数学的推論	良好	優秀	優秀	優秀	良好
論理的推論	優秀	優秀	優秀	優秀	良好
多段階推論	優秀	優秀	優秀	優秀	良好
常識推論	優秀	優秀	良好	良好	優秀

推論シーンの推奨順位： o3 ≈ Gemini 2.5 Pro ≈ DeepSeek R1 > Claude Sonnet 4 > GPT-4o

プライバシーとセキュリティの比較

プロバイダー	データ保存	学習への使用	デプロイ方式	コンプライアンス認証
Anthropic (Claude)	API呼び出しは保存なし	学習に使用しない	クラウド	SOC 2
OpenAI (GPT)	デフォルトで保存なし	APIは学習に使用しない	クラウド/Azure	SOC 2, GDPR
Google (Gemini)	APIは保存なし	無料層は学習に使用される可能性	クラウド/Vertex	ISO 27001
Ollama (ローカル)	完全ローカル	関係なし	ローカル	関係なし
DeepSeek	保存の可能性	ポリシー不明確	クラウド	限定的

プライバシー重視シーンの推奨順位： ローカルモデル > Claude/GPT (API) > Gemini (Vertex) > DeepSeek

シーン別推奨プラン

個人の日常利用（月予算 $0-10）

{
  models: {
    primary: {
      provider: "google",
      apiKey: "${GOOGLE_AI_API_KEY}",
      defaultModel: "gemini-2.5-flash",   // 無料枠内で使用
    },
    fallback: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",
      defaultModel: "qwen2.5:7b",         // 無料枠を使い切った後はローカルに切り替え
    }
  }
}

プロフェッショナル開発者（月予算 $20-50）

{
  models: {
    coding: {
      provider: "anthropic",
      apiKey: "${ANTHROPIC_API_KEY}",
      defaultModel: "claude-sonnet-4",     // コードタスクには Claude
    },
    daily: {
      provider: "openai",
      apiKey: "${OPENAI_API_KEY}",
      defaultModel: "gpt-4o-mini",         // 日常会話は安価なモデル
    }
  }
}

中国語コンテンツ制作（月予算 $10-30）

{
  models: {
    writing: {
      provider: "deepseek",
      apiKey: "${DEEPSEEK_API_KEY}",
      defaultModel: "deepseek-chat",       // 究極のコスパの中国語モデル
    },
    review: {
      provider: "anthropic",
      apiKey: "${ANTHROPIC_API_KEY}",
      defaultModel: "claude-haiku-3.5",    // 校正と推敲
    }
  }
}

企業チーム（月予算 $100+）

{
  models: {
    primary: {
      provider: "anthropic",
      apiKey: "${ANTHROPIC_API_KEY}",
      defaultModel: "claude-sonnet-4",
    },
    fast: {
      provider: "openai",
      apiKey: "${OPENAI_API_KEY}",
      defaultModel: "gpt-4o-mini",
    },
    reasoning: {
      provider: "openai",
      apiKey: "${OPENAI_API_KEY}",
      defaultModel: "o3",
    }
  }
}

完全オフライン / プライバシー最優先

{
  models: {
    local: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",
      defaultModel: "qwen2.5:32b-instruct-q4_K_M",
    }
  }
}

ハイブリッドモデル戦略

タスクの種類に応じてモデルを自動選択するのが最も賢い方法です：

{
  models: {
    "tier-1": {
      provider: "anthropic",
      defaultModel: "claude-sonnet-4",
      // 用途：複雑な分析、長文作成、コードレビュー
    },
    "tier-2": {
      provider: "google",
      defaultModel: "gemini-2.5-flash",
      // 用途：日常会話、簡単な Q&A、翻訳
    },
    "tier-3": {
      provider: "ollama",
      defaultModel: "qwen2.5:7b",
      // 用途：オフラインシーン、プライバシーデータ、ネットワークなし時
    }
  },
  routing: {
    default: "tier-2",
    complex: "tier-1",
    offline: "tier-3",
  }
}

よくある質問

どのモデルから始めるべきですか？

初めてのユーザーには、Gemini 2.5 Flash から始めることを推奨します。無料で、速度が速く、品質も良好です。慣れてからニーズに応じてより優れたモデルにアップグレードしてください。

複数のモデルを同時に設定できますか？

はい、できます。OpenClaw は任意の数のモデルを設定でき、異なるチャンネルに異なるモデルを割り当てることが可能です。

モデル間の切り替えは可能ですか？

設定ファイルを変更して openclaw restart を実行することで、モデルを切り替えることができます。

まとめ

「最良のモデル」は存在せず、ご自身のシーンに最適なモデルがあるだけです。品質を追求するなら Claude Sonnet 4、コストパフォーマンスなら DeepSeek V3 または Gemini Flash、プライバシーならローカル Ollama、推論能力なら o3 または Gemini 2.5 Pro を選択してください。ほとんどの場合、複数のモデルをハイブリッドで使用することが最も賢明な戦略です。