OpenClaw图像生成技能配置指南

概述

图像生成是 AI 智能体最受欢迎的能力之一。OpenClaw 通过其技能插件系统支持集成多种 AI 图像生成服务，让智能体能够根据用户的文字描述生成图像。本文将介绍如何在 OpenClaw 中配置和优化图像生成技能。

技能架构

图像生成技能是 OpenClaw 工具系统的一部分，在七阶段工具管线中注册和管理。它将 canvas 内置工具的图形处理能力与外部 AI 图像生成 API 相结合。

Pi SDK 的直接嵌入特性缩短了图像生成的调用链——从用户请求到 API 调用都在同一个运行时中完成，无需进程间通信。

支持的生成服务

OpenAI DALL-E

skills:
  imageGen:
    provider: openai
    model: dall-e-3
    apiKey: ${OPENAI_API_KEY}
    defaultSize: "1024x1024"
    defaultQuality: standard
    defaultStyle: vivid

Stable Diffusion（本地或远程）

skills:
  imageGen:
    provider: stable-diffusion
    endpoint: "http://localhost:7860/sdapi/v1/txt2img"
    defaultSteps: 30
    defaultSampler: "DPM++ 2M Karras"
    defaultSize: "512x512"
    defaultCfgScale: 7

Midjourney（通过代理）

skills:
  imageGen:
    provider: midjourney
    proxyEndpoint: "https://mj-proxy.example.com"
    apiKey: ${MJ_API_KEY}
    defaultAspectRatio: "1:1"

配置详解

基本参数

provider：图像生成服务提供商
apiKey：API 认证密钥（建议使用环境变量引用）
defaultSize：默认图像尺寸
maxGenerationsPerDay：每日最大生成次数（用于成本控制）
outputFormat：输出格式（png / jpg / webp）

提示词翻译

由于大多数图像生成模型使用英文提示词效果最佳，OpenClaw 内置了提示词翻译功能。当用户使用其他语言描述需求时，AI 智能体会先将描述翻译为英文，再作为提示词发送给生成服务。

skills:
  imageGen:
    promptTranslation:
      enabled: true
      targetLanguage: en
      enhancePrompt: true

当 enhancePrompt 开启时，AI 智能体不仅会翻译，还会根据图像生成的最佳实践来优化提示词——添加质量描述词、风格关键词、光线指令等。

负面提示词

你可以配置一个全局负面提示词，它会自动附加到每次生成请求中：

skills:
  imageGen:
    negativePrompt: "low quality, blurry, watermark, text, deformed"

渠道适配

不同渠道处理图像的方式不同，图像生成技能会根据渠道类型自动适配。

Discord

生成的图像以 embed 消息发送，附带提示词描述和生成参数。配合 discord_embed 渠道工具，还可以添加"重新生成"按钮。

图像直接作为照片消息发送。Telegram 会自动压缩大图；如需保留原始画质，可以配置为以文件形式发送。

Slack

图像通过 Slack 的文件上传 API 发送，并自动添加 alt 文本以支持无障碍访问。

图像以媒体消息形式发送，受 WhatsApp 文件大小限制（最大 16MB）。

图像处理管线

生成的图像在发送前可以经过处理管线：

尺寸调整：根据目标渠道自动缩放
格式转换：转换为最适合该渠道的格式
水印添加：可选的自定义水印叠加
元数据注入：将生成参数写入图像 EXIF 数据
内容审核：可选的 NSFW 检测，过滤不当内容

skills:
  imageGen:
    pipeline:
      resize: auto
      format: auto
      watermark:
        enabled: false
        text: "Generated by OpenClaw"
      contentFilter:
        enabled: true
        strictness: medium

会话中的图像管理

生成的图像与会话绑定。当使用 JSONL 格式持久化会话时，图像的引用路径和元数据会被记录，但图像文件本身存储在独立的文件存储中。

当会话压缩发生时，较早的图像引用可能会被清理。你可以通过 imageRetentionDays 配置来控制图像的保留时间。

成本控制

AI 图像生成通常按次计费。OpenClaw 提供了多种成本控制机制：

每日配额：限制每天的生成次数
用户配额：为每个用户设置独立的使用限制
渠道配额：控制每个渠道的生成频率
缓存：短时间内相同的提示词不会触发重复生成

skills:
  imageGen:
    quotas:
      daily: 100
      perUser: 10
      perChannel: 30
    cache:
      enabled: true
      ttl: 3600

与其他工具的协作

图像生成技能可以与 OpenClaw 的其他工具配合使用：

browser + imageGen：先从网页获取参考素材，再据此生成图像
cron + imageGen：定时生成图像（如每日壁纸推荐）
canvas + imageGen：对生成的图像进行二次编辑和标注

常见问题排查

常见问题及解决方案：

生成超时：图像生成通常需要 10-30 秒，确保超时设置足够长
API 限流：添加请求队列和重试逻辑
内容被拒绝：调整提示词或检查内容策略
图像质量不佳：开启 enhancePrompt 或调整生成参数

总结

OpenClaw 的图像生成技能将 AI 图像创作无缝融入对话体验。通过灵活的服务商配置、智能的提示词优化和完善的成本控制，为用户提供便捷高效的图像创作工具。