OpenClawリソース監視とアラート設定

はじめに

OpenClaw のリソース消費状況を把握することは、サービスの安定性を保証するための鍵です。本記事では、メモリ、CPU、ネットワーク接続、メッセージ処理量などの指標を含む、OpenClawのリソース使用状況を総合的に監視する方法と、指標が異常な場合の自動アラート通知の設定方法を紹介します。

一、組み込みリソース監視

1.1 openclaw statsコマンド

OpenClawはリソース使用状況の概要を素早く確認できる組み込みの統計コマンドを提供しています。

openclaw stats

稼働時間、メモリ使用量、CPU使用率、今日のメッセージ数、トークン消費、費用、平均応答時間、エラー率などが表示されます。

1.2 リアルタイム監視パネル

openclaw stats --live
openclaw stats --live --interval 5

リアルタイムパネルはメモリ使用トレンド、1分あたりのメッセージ処理量、アクティブ接続数、API呼び出しレイテンシ、エラーカウントなどの指標を継続的に更新します。

1.3 履歴統計クエリ

openclaw stats --period 24h
openclaw stats --period 7d --metric memory
openclaw stats --period 30d --format csv > openclaw-stats.csv

二、HTTP API監視インターフェース

2.1 実行指標の取得

curl -s http://localhost:18789/health/stats | jq .

稼働時間、メモリ（ヒープ使用量、RSS）、CPU、メッセージ（今日、今時間、合計）、トークン、応答時間（平均、P50、P95、P99）、エラーなどのデータを返します。

2.2 チャンネルレベルの統計

curl -s http://localhost:18789/health/channels | jq .

各チャンネルの接続状態、稼働時間、受信・送信メッセージ数、平均応答時間、エラー数を確認できます。

三、Prometheus指標収集

3.1 Prometheusエンドポイントの有効化

{
  "monitoring": {
    "prometheus": {
      "enabled": true,
      "port": 9191,
      "path": "/metrics"
    }
  }
}

3.2 主要なPrometheus指標

OpenClawはメッセージ処理指標（受信・送信・失敗の合計）、モデル呼び出し指標（リクエスト数・エラー数・応答時間分布・トークン使用量）、リソース指標（ヒープメモリ・RSSメモリ・アクティブ接続数・キュー長）をエクスポートします。

3.3 実用的なPromQLクエリ

# 1分あたりのメッセージ処理レート
rate(openclaw_messages_received_total[5m]) * 60

# チャンネル別メッセージ量
sum by (channel) (increase(openclaw_messages_received_total[24h]))

# モデル呼び出しP95レイテンシ
histogram_quantile(0.95, rate(openclaw_model_duration_seconds_bucket[5m]))

# エラー率
rate(openclaw_model_errors_total[5m]) / rate(openclaw_model_requests_total[5m])

四、アラートルールの設定

4.1 閾値ベースのアラート

OpenClawの設定でアラートルールを設定できます。高メモリ使用率、応答遅延、高エラー率、チャンネル切断、キュー滞留などの条件を監視できます。

4.2 アラート通知チャンネル

Telegram、Webhook（Slackなど）、メールなど、複数の通知方式をサポートしています。アラートのスロットリング間隔と復旧通知も設定可能です。

4.3 Grafanaアラートルール

Grafanaを使用している場合、OpenClawHighMemory、OpenClawMessageBacklog、OpenClawDownなど、より柔軟なアラートルールを設定できます。

五、メッセージ量とコスト統計

5.1 日次統計

openclaw stats --period today --summary

5.2 コスト予測

openclaw stats --cost --period month

六、監視アーキテクチャの提案

デプロイ規模に応じて適切な監視方式を選択してください。

個人/小規模チーム（1-5ユーザー）： openclaw statsコマンドによる手動確認、cron + watchdogスクリプトによる基本ヘルスチェック、Telegramアラート通知

中規模（5-50ユーザー）： Prometheus指標収集の有効化、Grafanaダッシュボードのデプロイ、多段階アラートルールの設定、定期的なコストレポートの確認

大規模/エンタープライズ： 完全なPrometheus + Grafana + Alertmanager体系、エンタープライズ監視プラットフォーム（Datadog/New Relic）への接続、ログの集中収集（ELK/Loki）、SLA監視と自動化運用

規模に合った監視方式を選択し、過度なエンジニアリングを避けつつ、重要な指標で盲点を残さないようにしてください。継続的な監視はOpenClawの安定運用を保証する基盤です。