前言
运行 AI 助手的最大持续成本就是模型 API 费用。不同模型之间的价格差异巨大,从每百万 token 不到一毛钱到几十美元不等。本文将全面对比各模型费用,并分享多种省钱技巧,帮助你在保证质量的前提下将成本降到最低。
各模型价格总览
云端模型价格表(2026 年 3 月)
| 模型 | 提供商 | 输入 ($/1M tokens) | 输出 ($/1M tokens) | 上下文窗口 |
|---|---|---|---|---|
| Claude Opus 4 | Anthropic | $15.00 | $75.00 | 200K |
| Claude Sonnet 4 | Anthropic | $3.00 | $15.00 | 200K |
| Claude Haiku 3.5 | Anthropic | $0.80 | $4.00 | 200K |
| GPT-4o | OpenAI | $2.50 | $10.00 | 128K |
| GPT-4o mini | OpenAI | $0.15 | $0.60 | 128K |
| o3 | OpenAI | $10.00 | $40.00 | 200K |
| o3-mini | OpenAI | $1.10 | $4.40 | 200K |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M | |
| Gemini 2.5 Flash | $0.15 | $0.60 | 1M | |
| DeepSeek V3 | DeepSeek | $0.14 | $0.28 | 128K |
| DeepSeek R1 | DeepSeek | $0.55 | $2.19 | 128K |
| Mistral Large | Mistral | $2.00 | $6.00 | 128K |
| Mistral Small | Mistral | $0.10 | $0.30 | 32K |
| Groq Llama 3.3 70B | Groq | $0.59 | $0.79 | 128K |
免费额度汇总
| 提供商 | 免费额度 | 有效期 | 限制 |
|---|---|---|---|
| Google AI Studio | Gemini Flash 每日 500 次 | 持续 | 速率限制较低 |
| DeepSeek | 新用户 $5 额度 | 注册后 30 天 | 无特殊限制 |
| Mistral | Le Chat 免费使用 | 持续 | 仅网页端 |
| Groq | 免费层 | 持续 | 速率限制严格 |
| Ollama (本地) | 完全免费 | 永久 | 需要硬件 |
实际费用模拟
什么是 Token?
Token 是模型处理文本的基本单位。粗略换算:
| 语言 | 1000 tokens ≈ | 示例 |
|---|---|---|
| 英文 | 750 词 | 约一页半 A4 纸 |
| 中文 | 500-600 字 | 约一页 A4 纸 |
单次对话的 Token 消耗
一次典型对话的 token 组成:
系统提示词: ~200 tokens
用户消息: ~100-500 tokens
历史上下文: ~500-2000 tokens(多轮对话)
模型输出: ~200-1000 tokens
─────────────────────────
总计: ~1000-3700 tokens
月度费用估算表
假设每天 50 次对话,每次平均消耗 1500 input tokens + 500 output tokens:
| 模型 | 每次对话费用 | 日费用 (50次) | 月费用 (1500次) |
|---|---|---|---|
| Claude Opus 4 | $0.060 | $3.00 | $90.00 |
| Claude Sonnet 4 | $0.012 | $0.60 | $18.00 |
| Claude Haiku 3.5 | $0.003 | $0.15 | $4.50 |
| GPT-4o | $0.009 | $0.45 | $13.50 |
| GPT-4o mini | $0.0005 | $0.025 | $0.75 |
| Gemini 2.5 Pro | $0.007 | $0.35 | $10.50 |
| Gemini 2.5 Flash | $0.0005 | $0.025 | $0.75 |
| DeepSeek V3 | $0.0004 | $0.02 | $0.54 |
| 本地模型 | $0 | $0 | $0* |
*本地模型不产生 API 费用,但有电费成本。一块 RTX 4090 全速运行约 450W,每小时电费约 ¥0.3-0.5。
省钱技巧
技巧一:分层模型策略
核心思路是"大事用大模型,小事用小模型":
{
models: {
"tier-premium": {
provider: "anthropic",
apiKey: "${ANTHROPIC_API_KEY}",
defaultModel: "claude-sonnet-4",
// 仅用于复杂任务
},
"tier-standard": {
provider: "openai",
apiKey: "${OPENAI_API_KEY}",
defaultModel: "gpt-4o-mini",
// 日常对话默认
},
"tier-free": {
provider: "google",
apiKey: "${GOOGLE_AI_API_KEY}",
defaultModel: "gemini-2.5-flash",
// 免费额度内优先使用
}
},
channels: {
telegram: {
model: "tier-free", // 默认用免费模型
}
}
}
技巧二:限制上下文长度
多轮对话会累积大量历史消息,显著增加 token 消耗。限制上下文可以大幅降低成本:
{
models: {
main: {
provider: "openai",
defaultModel: "gpt-4o",
context: {
maxMessages: 10, // 最多保留最近 10 条消息
maxTokens: 4000, // 上下文最多 4000 token
summarizeOlder: true, // 超出部分自动总结压缩
}
}
}
}
技巧三:限制输出长度
很多场景下,简短的回复就够用了:
{
models: {
main: {
provider: "openai",
defaultModel: "gpt-4o",
systemPrompt: "请尽量简洁地回答问题。除非用户明确要求详细解释,否则控制在 200 字以内。",
parameters: {
maxTokens: 1024, // 限制最大输出
}
}
}
}
技巧四:设置预算告警
在 OpenClaw 中配置预算上限,避免意外超支:
{
budget: {
global: {
dailyLimit: 5.00, // 每日最多 $5
monthlyLimit: 50.00, // 每月最多 $50
alertAt: [0.5, 0.8, 0.95], // 在 50%、80%、95% 时告警
alertChannel: "telegram", // 通过 Telegram 发送告警
onLimitReached: "switch", // 达到上限后切换到免费模型
fallbackModel: "tier-free",
}
}
}
技巧五:利用缓存
相同或相似的问题不需要每次都调用 API:
{
cache: {
enabled: true,
strategy: "semantic", // 语义缓存,相似问题命中缓存
similarity: 0.95, // 相似度阈值
ttl: 86400, // 缓存有效期 24 小时
maxSize: "100MB",
}
}
技巧六:善用免费额度
Google Gemini 的免费额度对个人用户非常够用。一个优化策略:
{
models: {
primary: {
provider: "google",
apiKey: "${GOOGLE_AI_API_KEY}",
defaultModel: "gemini-2.5-flash", // 主力用免费 Gemini
},
overflow: {
provider: "deepseek",
apiKey: "${DEEPSEEK_API_KEY}",
defaultModel: "deepseek-chat", // 超出免费额度后用便宜的 DeepSeek
}
},
routing: {
default: "primary",
onRateLimit: "overflow", // 被限流时自动切换
}
}
技巧七:本地模型兜底
{
models: {
cloud: {
provider: "google",
defaultModel: "gemini-2.5-flash",
},
local: {
provider: "ollama",
baseUrl: "http://localhost:11434",
defaultModel: "qwen2.5:7b",
}
},
routing: {
default: "cloud",
offline: "local", // 网络断开时用本地
budgetExceeded: "local", // 预算超标时用本地
}
}
Token 计数和监控
查看使用量
# 查看 OpenClaw 的 token 使用统计
openclaw dashboard
在 Dashboard 中可以看到:
- 每日/每周/每月的 token 使用量
- 按模型分类的费用统计
- 按频道分类的使用量
- 费用趋势图
各提供商后台查看
| 提供商 | 使用量查看地址 |
|---|---|
| Anthropic | console.anthropic.com → Usage |
| OpenAI | platform.openai.com → Usage |
| aistudio.google.com → Usage | |
| DeepSeek | platform.deepseek.com → Usage |
极致省钱方案
方案一:完全免费
{
models: {
free: {
provider: "ollama",
baseUrl: "http://localhost:11434",
defaultModel: "qwen2.5:7b-instruct-q4_K_M",
}
}
}
成本:$0/月(仅电费)。适合有独立显卡且对质量要求不高的用户。
方案二:月费 $5 以内
{
models: {
main: {
provider: "google",
defaultModel: "gemini-2.5-flash", // 免费额度为主
},
backup: {
provider: "deepseek",
defaultModel: "deepseek-chat", // 超出免费后用最便宜的
}
}
}
方案三:月费 $20,兼顾质量
{
models: {
premium: {
provider: "anthropic",
defaultModel: "claude-haiku-3.5", // 便宜又不错的 Claude
},
daily: {
provider: "google",
defaultModel: "gemini-2.5-flash", // 日常免费
}
},
budget: {
global: {
monthlyLimit: 20.00,
}
}
}
常见问题
费用突然暴增怎么办?
立即检查以下内容:
- 是否有人滥用你的 AI 助手(检查对话日志)
- 是否有循环对话或 bug 导致重复调用
- 是否不小心使用了昂贵的模型
紧急措施:
# 暂停服务
openclaw restart
# 检查日志
openclaw logs --since 24h
如何监控实时费用?
在 OpenClaw Dashboard 中可以实时查看,也可以配置告警:
openclaw dashboard
# 浏览器访问 http://localhost:18789/dashboard
缓存会影响回复质量吗?
语义缓存只在问题高度相似时命中,不会影响对新问题的回复质量。如果发现回复不够个性化,可以降低 similarity 阈值或关闭缓存。
小结
控制 OpenClaw 运行成本的核心策略是:分层使用模型、充分利用免费额度、限制上下文长度、设置预算告警。对于个人用户,Gemini Flash 免费额度 + DeepSeek 兜底的方案可以将月费控制在 $5 以内且质量不差。对于有独立显卡的用户,本地模型是零成本的终极方案。关键是根据自己的实际使用量和质量需求,找到最佳平衡点。