AI 模型费用优化实战指南

费用来源分析

OpenClaw 的主要费用来自模型 API 调用的 Token 消耗。理解费用构成是优化的第一步。

openclaw models cost --period 30d --detailed

Cost Breakdown (last 30 days):
  Provider     Model          Input Tokens  Output Tokens  Cost
  ──────────────────────────────────────────────────────────────
  openai       gpt-4o         2.5M          1.8M           $28.50
  openai       gpt-4o-mini    5.0M          3.2M           $2.67
  anthropic    claude-sonnet  800K          600K           $8.40
  ──────────────────────────────────────────────────────────────
  Total                       8.3M          5.6M           $39.57

  Top consumers:
    telegram-main: $22.00 (56%)
    discord-dev: $12.00 (30%)
    webchat: $5.57 (14%)

策略一：模型分层使用

不要所有请求都用最贵的模型：

{
  "routing": {
    "rules": [
      {"match": {"contentLength": {"max": 50}}, "model": "fast"},
      {"match": {"content": ".*"}, "model": "smart"}
    ]
  },
  "models": {
    "fast": {
      "provider": "openai",
      "model": "gpt-4o-mini",
      "maxTokens": 1024
    },
    "smart": {
      "provider": "openai",
      "model": "gpt-4o",
      "maxTokens": 2048
    }
  }
}

简单问候和短问题用便宜模型，复杂问题用高端模型。

策略二：控制输出长度

{
  "models": {
    "main": {
      "maxTokens": 2048,
      "systemPrompt": "请简洁回答问题。如果用户没有要求详细说明，请控制回复在200字以内。"
    }
  }
}

通过系统提示词引导模型生成更简洁的回复。

策略三：优化上下文窗口

对话历史会消耗大量输入 Token：

{
  "sessions": {
    "maxHistory": 10,
    "contextStrategy": "smart-trim",
    "summaryAfter": 20
  }
}

maxHistory: 10：只保留最近 10 轮对话
contextStrategy: "smart-trim"：智能裁剪不重要的历史消息
summaryAfter: 20：超过 20 轮后自动生成摘要替代完整历史

策略四：使用缓存

对于重复性高的问答（如 FAQ），启用响应缓存：

{
  "cache": {
    "enabled": true,
    "ttl": 3600,
    "maxEntries": 1000,
    "strategy": "semantic",
    "similarityThreshold": 0.95
  }
}

语义缓存可以匹配「措辞不同但意思相同」的问题。

策略五：设置预算上限

{
  "budget": {
    "daily": 10.00,
    "monthly": 200.00,
    "perUser": {
      "daily": 1.00
    },
    "actions": {
      "warning": 0.8,
      "downgrade": 0.9,
      "stop": 1.0
    },
    "downgradeModel": "fast"
  }
}

达到预算 80% 时发送告警
达到 90% 时自动降级到便宜模型
达到 100% 时停止服务

策略六：使用本地模型

对于非关键场景，使用免费的本地模型：

{
  "models": {
    "local": {
      "provider": "ollama",
      "model": "llama3.1:8b",
      "maxTokens": 2048
    }
  },
  "routing": {
    "rules": [
      {"match": {"channel": "internal-chat"}, "model": "local"},
      {"match": {"content": ".*"}, "model": "smart"}
    ]
  }
}

策略七：速率限制

防止单个用户消耗过多资源：

{
  "channels": {
    "telegram-main": {
      "rateLimit": {
        "maxMessages": 20,
        "window": 60,
        "maxTokensPerDay": 50000
      }
    }
  }
}

费用监控与告警

# 查看实时费用
openclaw cost today

# 查看月度趋势
openclaw cost trend --period 30d

# 设置告警
openclaw cost alert --daily 10 --notify telegram-admin

费用报告

# 生成月度费用报告
openclaw cost report --period monthly --output cost-report.json

{
  "period": "2026-03",
  "total": 39.57,
  "breakdown": {
    "byProvider": {"openai": 31.17, "anthropic": 8.40},
    "byChannel": {"telegram": 22.00, "discord": 12.00, "webchat": 5.57},
    "byDay": [{"date": "2026-03-01", "cost": 1.32}, ...]
  },
  "savings": {
    "cacheHits": 350,
    "estimatedSaved": 8.50,
    "modelDowngrades": 120,
    "estimatedSaved": 5.20
  }
}

投资回报率计算

月度 AI 费用: $39.57
替代方案（人工客服 4h/天 × 30天）: $3,000+
节省: ~$2,960/月
ROI: 7,480%

总结

费用优化的核心是「在正确的场景用正确的模型」。通过模型分层、上下文优化、缓存和预算控制的组合使用，通常可以在保持服务质量的同时减少 50-70% 的费用。定期审查费用报告，持续优化路由规则是长期降本的关键。