首页 教程 分类 Skills下载 关于
ZH EN JA KO
技能插件

OpenClaw图像生成技能配置指南

· 7 分钟

概述

图像生成是 AI 智能体最受欢迎的能力之一。OpenClaw 通过其技能插件系统支持集成多种 AI 图像生成服务,让智能体能够根据用户的文字描述生成图像。本文将介绍如何在 OpenClaw 中配置和优化图像生成技能。

技能架构

图像生成技能是 OpenClaw 工具系统的一部分,在七阶段工具管线中注册和管理。它将 canvas 内置工具的图形处理能力与外部 AI 图像生成 API 相结合。

Pi SDK 的直接嵌入特性缩短了图像生成的调用链——从用户请求到 API 调用都在同一个运行时中完成,无需进程间通信。

支持的生成服务

OpenAI DALL-E

skills:
  imageGen:
    provider: openai
    model: dall-e-3
    apiKey: ${OPENAI_API_KEY}
    defaultSize: "1024x1024"
    defaultQuality: standard
    defaultStyle: vivid

Stable Diffusion(本地或远程)

skills:
  imageGen:
    provider: stable-diffusion
    endpoint: "http://localhost:7860/sdapi/v1/txt2img"
    defaultSteps: 30
    defaultSampler: "DPM++ 2M Karras"
    defaultSize: "512x512"
    defaultCfgScale: 7

Midjourney(通过代理)

skills:
  imageGen:
    provider: midjourney
    proxyEndpoint: "https://mj-proxy.example.com"
    apiKey: ${MJ_API_KEY}
    defaultAspectRatio: "1:1"

配置详解

基本参数

  • provider:图像生成服务提供商
  • apiKey:API 认证密钥(建议使用环境变量引用)
  • defaultSize:默认图像尺寸
  • maxGenerationsPerDay:每日最大生成次数(用于成本控制)
  • outputFormat:输出格式(png / jpg / webp)

提示词翻译

由于大多数图像生成模型使用英文提示词效果最佳,OpenClaw 内置了提示词翻译功能。当用户使用其他语言描述需求时,AI 智能体会先将描述翻译为英文,再作为提示词发送给生成服务。

skills:
  imageGen:
    promptTranslation:
      enabled: true
      targetLanguage: en
      enhancePrompt: true

enhancePrompt 开启时,AI 智能体不仅会翻译,还会根据图像生成的最佳实践来优化提示词——添加质量描述词、风格关键词、光线指令等。

负面提示词

你可以配置一个全局负面提示词,它会自动附加到每次生成请求中:

skills:
  imageGen:
    negativePrompt: "low quality, blurry, watermark, text, deformed"

渠道适配

不同渠道处理图像的方式不同,图像生成技能会根据渠道类型自动适配。

Discord

生成的图像以 embed 消息发送,附带提示词描述和生成参数。配合 discord_embed 渠道工具,还可以添加"重新生成"按钮。

Telegram

图像直接作为照片消息发送。Telegram 会自动压缩大图;如需保留原始画质,可以配置为以文件形式发送。

Slack

图像通过 Slack 的文件上传 API 发送,并自动添加 alt 文本以支持无障碍访问。

WhatsApp

图像以媒体消息形式发送,受 WhatsApp 文件大小限制(最大 16MB)。

图像处理管线

生成的图像在发送前可以经过处理管线:

  1. 尺寸调整:根据目标渠道自动缩放
  2. 格式转换:转换为最适合该渠道的格式
  3. 水印添加:可选的自定义水印叠加
  4. 元数据注入:将生成参数写入图像 EXIF 数据
  5. 内容审核:可选的 NSFW 检测,过滤不当内容
skills:
  imageGen:
    pipeline:
      resize: auto
      format: auto
      watermark:
        enabled: false
        text: "Generated by OpenClaw"
      contentFilter:
        enabled: true
        strictness: medium

会话中的图像管理

生成的图像与会话绑定。当使用 JSONL 格式持久化会话时,图像的引用路径和元数据会被记录,但图像文件本身存储在独立的文件存储中。

当会话压缩发生时,较早的图像引用可能会被清理。你可以通过 imageRetentionDays 配置来控制图像的保留时间。

成本控制

AI 图像生成通常按次计费。OpenClaw 提供了多种成本控制机制:

  • 每日配额:限制每天的生成次数
  • 用户配额:为每个用户设置独立的使用限制
  • 渠道配额:控制每个渠道的生成频率
  • 缓存:短时间内相同的提示词不会触发重复生成
skills:
  imageGen:
    quotas:
      daily: 100
      perUser: 10
      perChannel: 30
    cache:
      enabled: true
      ttl: 3600

与其他工具的协作

图像生成技能可以与 OpenClaw 的其他工具配合使用:

  • browser + imageGen:先从网页获取参考素材,再据此生成图像
  • cron + imageGen:定时生成图像(如每日壁纸推荐)
  • canvas + imageGen:对生成的图像进行二次编辑和标注

常见问题排查

常见问题及解决方案:

  1. 生成超时:图像生成通常需要 10-30 秒,确保超时设置足够长
  2. API 限流:添加请求队列和重试逻辑
  3. 内容被拒绝:调整提示词或检查内容策略
  4. 图像质量不佳:开启 enhancePrompt 或调整生成参数

总结

OpenClaw 的图像生成技能将 AI 图像创作无缝融入对话体验。通过灵活的服务商配置、智能的提示词优化和完善的成本控制,为用户提供便捷高效的图像创作工具。

OpenClaw 是开源免费的个人AI助手,支持 WhatsApp、Telegram、Discord 等多平台接入