概要
画像生成は AI エージェントの最も人気のある機能の一つです。OpenClaw はスキルプラグインシステムを通じて複数の AI 画像生成サービスの統合をサポートし、エージェントがユーザーのテキスト説明に基づいて画像を生成できるようにします。本記事では、OpenClaw で画像生成スキルを設定・最適化する方法を紹介します。
スキルアーキテクチャ
画像生成スキルは OpenClaw ツールシステムの一部として、七段階ツールパイプラインで登録・管理されます。canvas 組み込みツールのグラフィックス処理能力と外部 AI 画像生成 API の生成能力を組み合わせています。
Pi SDK の直接埋め込み特性により、画像生成の呼び出しチェーンがより短くなります——ユーザーリクエストから API 呼び出しまで同一ランタイム内で完結し、プロセス間通信が不要です。
サポートされる生成サービス
OpenAI DALL-E
skills:
imageGen:
provider: openai
model: dall-e-3
apiKey: ${OPENAI_API_KEY}
defaultSize: "1024x1024"
defaultQuality: standard
defaultStyle: vivid
Stable Diffusion(ローカルまたはリモート)
skills:
imageGen:
provider: stable-diffusion
endpoint: "http://localhost:7860/sdapi/v1/txt2img"
defaultSteps: 30
defaultSampler: "DPM++ 2M Karras"
defaultSize: "512x512"
defaultCfgScale: 7
Midjourney(プロキシ経由)
skills:
imageGen:
provider: midjourney
proxyEndpoint: "https://mj-proxy.example.com"
apiKey: ${MJ_API_KEY}
defaultAspectRatio: "1:1"
設定の詳細
基本パラメータ
- provider:画像生成サービスプロバイダー
- apiKey:API 認証キー(環境変数の参照を推奨)
- defaultSize:デフォルトの画像サイズ
- maxGenerationsPerDay:1日あたりの最大生成回数(コスト管理)
- outputFormat:出力形式(png / jpg / webp)
プロンプト翻訳
ほとんどの画像生成モデルは英語のプロンプトで最良の結果を出すため、OpenClaw にはプロンプト翻訳機能が組み込まれています。ユーザーが日本語で要望を説明した場合、AI エージェントはまず説明を英語に翻訳し、それをプロンプトとして生成サービスに送信します。
skills:
imageGen:
promptTranslation:
enabled: true
targetLanguage: en
enhancePrompt: true
enhancePrompt を有効にすると、AI エージェントは翻訳するだけでなく、画像生成のベストプラクティスに基づいてプロンプトを最適化します——画質の説明、スタイルキーワード、照明の指定などを追加します。
ネガティブプロンプト
グローバルなネガティブプロンプトを設定し、各生成リクエストに自動的に付加できます。
skills:
imageGen:
negativePrompt: "low quality, blurry, watermark, text, deformed"
チャンネル適応
異なるチャンネルでは画像の処理方法が異なり、画像生成スキルはチャンネルタイプに応じて自動的に適応します。
Discord
生成された画像は埋め込みメッセージ(Embed)形式で送信され、プロンプトの説明と生成パラメータが付加されます。discord_embed チャンネルツールと組み合わせれば、「再生成」ボタンも追加できます。
Telegram
画像は写真メッセージとして直接送信されます。Telegram は大きな画像を自動的に圧縮しますが、元の品質を維持したい場合はファイル形式での送信を設定できます。
Slack
Slack のファイルアップロード API を通じて画像を送信し、alt テキストを自動的に付加してアクセシビリティを向上させます。
画像はメディアメッセージとして送信され、WhatsApp のファイルサイズ制限(最大 16MB)が適用されます。
画像処理パイプライン
生成された画像は送信前に処理パイプラインを通過できます。
- サイズ調整:ターゲットチャンネルに応じた自動スケーリング
- フォーマット変換:チャンネルに最適な形式への変換
- ウォーターマーク追加:オプションのカスタムウォーターマーク
- メタデータ注入:生成パラメータを画像の EXIF データに書き込み
- コンテンツ審査:オプションの NSFW 検出、不適切なコンテンツのフィルタリング
skills:
imageGen:
pipeline:
resize: auto
format: auto
watermark:
enabled: false
text: "Generated by OpenClaw"
contentFilter:
enabled: true
strictness: medium
セッション内の画像管理
生成された画像はセッションに紐付けられます。セッションの永続化に JSONL 形式のストレージを使用する場合、画像の参照パスとメタデータが記録されますが、画像ファイル自体は独立したファイルストレージに保存されます。
セッションの圧縮(compaction)が実行される際、古い画像参照がクリーンアップされる可能性があります。imageRetentionDays の設定で画像の保持期間を制御できます。
コスト管理
AI 画像生成は通常回数ごとに課金されるため、OpenClaw は複数のコスト管理メカニズムを提供しています。
- 日次クォータ:1日あたりの生成回数を制限
- ユーザークォータ:各ユーザーに個別の使用制限を設定
- チャンネルクォータ:チャンネルごとの生成頻度を制御
- キャッシュ:同じプロンプトは短時間内に重複生成しない
skills:
imageGen:
quotas:
daily: 100
perUser: 10
perChannel: 30
cache:
enabled: true
ttl: 3600
他のツールとの連携
画像生成スキルは OpenClaw の他のツールと連携できます。
- browser + imageGen:まずウェブページから参考素材を取得し、それを基に画像を生成
- cron + imageGen:定期的な画像生成(例:毎日の壁紙おすすめ)
- canvas + imageGen:生成した画像の二次編集やアノテーション
トラブルシューティング
よくある問題と解決策は以下の通りです。
- 生成タイムアウト:画像生成には通常 10〜30 秒かかるため、タイムアウト設定が十分であることを確認してください
- API レート制限:リクエストキューとリトライロジックを追加する
- コンテンツが拒否される:プロンプトを調整するか、コンテンツポリシーを確認する
- 画像品質が低い:
enhancePromptを有効にするか、生成パラメータを調整する
まとめ
OpenClaw の画像生成スキルは、AI 画像生成機能を会話体験にシームレスに統合します。柔軟なサービスプロバイダー設定、インテリジェントなプロンプト最適化、充実したコスト管理により、ユーザーに便利で効率的な画像制作ツールを提供します。