首页 教程 分类 Skills下载 关于
ZH EN JA KO
模型接入

OpenClaw各模型API费用对比和省钱技巧

· 13 分钟

前言

运行 AI 助手的最大持续成本就是模型 API 费用。不同模型之间的价格差异巨大,从每百万 token 不到一毛钱到几十美元不等。本文将全面对比各模型费用,并分享多种省钱技巧,帮助你在保证质量的前提下将成本降到最低。

各模型价格总览

云端模型价格表(2026 年 3 月)

模型 提供商 输入 ($/1M tokens) 输出 ($/1M tokens) 上下文窗口
Claude Opus 4 Anthropic $15.00 $75.00 200K
Claude Sonnet 4 Anthropic $3.00 $15.00 200K
Claude Haiku 3.5 Anthropic $0.80 $4.00 200K
GPT-4o OpenAI $2.50 $10.00 128K
GPT-4o mini OpenAI $0.15 $0.60 128K
o3 OpenAI $10.00 $40.00 200K
o3-mini OpenAI $1.10 $4.40 200K
Gemini 2.5 Pro Google $1.25 $10.00 1M
Gemini 2.5 Flash Google $0.15 $0.60 1M
DeepSeek V3 DeepSeek $0.14 $0.28 128K
DeepSeek R1 DeepSeek $0.55 $2.19 128K
Mistral Large Mistral $2.00 $6.00 128K
Mistral Small Mistral $0.10 $0.30 32K
Groq Llama 3.3 70B Groq $0.59 $0.79 128K

免费额度汇总

提供商 免费额度 有效期 限制
Google AI Studio Gemini Flash 每日 500 次 持续 速率限制较低
DeepSeek 新用户 $5 额度 注册后 30 天 无特殊限制
Mistral Le Chat 免费使用 持续 仅网页端
Groq 免费层 持续 速率限制严格
Ollama (本地) 完全免费 永久 需要硬件

实际费用模拟

什么是 Token?

Token 是模型处理文本的基本单位。粗略换算:

语言 1000 tokens ≈ 示例
英文 750 词 约一页半 A4 纸
中文 500-600 字 约一页 A4 纸

单次对话的 Token 消耗

一次典型对话的 token 组成:

系统提示词:       ~200 tokens
用户消息:          ~100-500 tokens
历史上下文:        ~500-2000 tokens(多轮对话)
模型输出:          ~200-1000 tokens
─────────────────────────
总计:              ~1000-3700 tokens

月度费用估算表

假设每天 50 次对话,每次平均消耗 1500 input tokens + 500 output tokens:

模型 每次对话费用 日费用 (50次) 月费用 (1500次)
Claude Opus 4 $0.060 $3.00 $90.00
Claude Sonnet 4 $0.012 $0.60 $18.00
Claude Haiku 3.5 $0.003 $0.15 $4.50
GPT-4o $0.009 $0.45 $13.50
GPT-4o mini $0.0005 $0.025 $0.75
Gemini 2.5 Pro $0.007 $0.35 $10.50
Gemini 2.5 Flash $0.0005 $0.025 $0.75
DeepSeek V3 $0.0004 $0.02 $0.54
本地模型 $0 $0 $0*

*本地模型不产生 API 费用,但有电费成本。一块 RTX 4090 全速运行约 450W,每小时电费约 ¥0.3-0.5。

省钱技巧

技巧一:分层模型策略

核心思路是"大事用大模型,小事用小模型":

{
  models: {
    "tier-premium": {
      provider: "anthropic",
      apiKey: "${ANTHROPIC_API_KEY}",
      defaultModel: "claude-sonnet-4",
      // 仅用于复杂任务
    },
    "tier-standard": {
      provider: "openai",
      apiKey: "${OPENAI_API_KEY}",
      defaultModel: "gpt-4o-mini",
      // 日常对话默认
    },
    "tier-free": {
      provider: "google",
      apiKey: "${GOOGLE_AI_API_KEY}",
      defaultModel: "gemini-2.5-flash",
      // 免费额度内优先使用
    }
  },
  channels: {
    telegram: {
      model: "tier-free",            // 默认用免费模型
    }
  }
}

技巧二:限制上下文长度

多轮对话会累积大量历史消息,显著增加 token 消耗。限制上下文可以大幅降低成本:

{
  models: {
    main: {
      provider: "openai",
      defaultModel: "gpt-4o",
      context: {
        maxMessages: 10,            // 最多保留最近 10 条消息
        maxTokens: 4000,            // 上下文最多 4000 token
        summarizeOlder: true,       // 超出部分自动总结压缩
      }
    }
  }
}

技巧三:限制输出长度

很多场景下,简短的回复就够用了:

{
  models: {
    main: {
      provider: "openai",
      defaultModel: "gpt-4o",
      systemPrompt: "请尽量简洁地回答问题。除非用户明确要求详细解释,否则控制在 200 字以内。",
      parameters: {
        maxTokens: 1024,            // 限制最大输出
      }
    }
  }
}

技巧四:设置预算告警

在 OpenClaw 中配置预算上限,避免意外超支:

{
  budget: {
    global: {
      dailyLimit: 5.00,            // 每日最多 $5
      monthlyLimit: 50.00,         // 每月最多 $50
      alertAt: [0.5, 0.8, 0.95],  // 在 50%、80%、95% 时告警
      alertChannel: "telegram",    // 通过 Telegram 发送告警
      onLimitReached: "switch",    // 达到上限后切换到免费模型
      fallbackModel: "tier-free",
    }
  }
}

技巧五:利用缓存

相同或相似的问题不需要每次都调用 API:

{
  cache: {
    enabled: true,
    strategy: "semantic",          // 语义缓存,相似问题命中缓存
    similarity: 0.95,              // 相似度阈值
    ttl: 86400,                    // 缓存有效期 24 小时
    maxSize: "100MB",
  }
}

技巧六:善用免费额度

Google Gemini 的免费额度对个人用户非常够用。一个优化策略:

{
  models: {
    primary: {
      provider: "google",
      apiKey: "${GOOGLE_AI_API_KEY}",
      defaultModel: "gemini-2.5-flash",   // 主力用免费 Gemini
    },
    overflow: {
      provider: "deepseek",
      apiKey: "${DEEPSEEK_API_KEY}",
      defaultModel: "deepseek-chat",       // 超出免费额度后用便宜的 DeepSeek
    }
  },
  routing: {
    default: "primary",
    onRateLimit: "overflow",               // 被限流时自动切换
  }
}

技巧七:本地模型兜底

{
  models: {
    cloud: {
      provider: "google",
      defaultModel: "gemini-2.5-flash",
    },
    local: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",
      defaultModel: "qwen2.5:7b",
    }
  },
  routing: {
    default: "cloud",
    offline: "local",                       // 网络断开时用本地
    budgetExceeded: "local",               // 预算超标时用本地
  }
}

Token 计数和监控

查看使用量

# 查看 OpenClaw 的 token 使用统计
openclaw dashboard

在 Dashboard 中可以看到:

  • 每日/每周/每月的 token 使用量
  • 按模型分类的费用统计
  • 按频道分类的使用量
  • 费用趋势图

各提供商后台查看

提供商 使用量查看地址
Anthropic console.anthropic.com → Usage
OpenAI platform.openai.com → Usage
Google aistudio.google.com → Usage
DeepSeek platform.deepseek.com → Usage

极致省钱方案

方案一:完全免费

{
  models: {
    free: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",
      defaultModel: "qwen2.5:7b-instruct-q4_K_M",
    }
  }
}

成本:$0/月(仅电费)。适合有独立显卡且对质量要求不高的用户。

方案二:月费 $5 以内

{
  models: {
    main: {
      provider: "google",
      defaultModel: "gemini-2.5-flash",     // 免费额度为主
    },
    backup: {
      provider: "deepseek",
      defaultModel: "deepseek-chat",         // 超出免费后用最便宜的
    }
  }
}

方案三:月费 $20,兼顾质量

{
  models: {
    premium: {
      provider: "anthropic",
      defaultModel: "claude-haiku-3.5",      // 便宜又不错的 Claude
    },
    daily: {
      provider: "google",
      defaultModel: "gemini-2.5-flash",      // 日常免费
    }
  },
  budget: {
    global: {
      monthlyLimit: 20.00,
    }
  }
}

常见问题

费用突然暴增怎么办?

立即检查以下内容:

  1. 是否有人滥用你的 AI 助手(检查对话日志)
  2. 是否有循环对话或 bug 导致重复调用
  3. 是否不小心使用了昂贵的模型

紧急措施:

# 暂停服务
openclaw restart

# 检查日志
openclaw logs --since 24h

如何监控实时费用?

在 OpenClaw Dashboard 中可以实时查看,也可以配置告警:

openclaw dashboard
# 浏览器访问 http://localhost:18789/dashboard

缓存会影响回复质量吗?

语义缓存只在问题高度相似时命中,不会影响对新问题的回复质量。如果发现回复不够个性化,可以降低 similarity 阈值或关闭缓存。

小结

控制 OpenClaw 运行成本的核心策略是:分层使用模型、充分利用免费额度、限制上下文长度、设置预算告警。对于个人用户,Gemini Flash 免费额度 + DeepSeek 兜底的方案可以将月费控制在 $5 以内且质量不差。对于有独立显卡的用户,本地模型是零成本的终极方案。关键是根据自己的实际使用量和质量需求,找到最佳平衡点。

OpenClaw 是开源免费的个人AI助手,支持 WhatsApp、Telegram、Discord 等多平台接入