概要
ブラウザツールは OpenClaw のコア組み込みツールの1つで、AI エージェントに Web ページと直接インタラクションする能力を与えます。このツールにより、エージェントはページのナビゲーション、コンテンツの抽出、フォームの入力、ボタンのクリック、スクリーンショットの撮影、さらには複雑な複数ステップの Web インタラクションワークフローの実行が可能になります。
ツールアーキテクチャ
OpenClaw のブラウザツールは、サンドボックス化されたブラウザブリッジメカニズムを通じて実際のブラウザインスタンスと通信します。Pi SDK が直接組み込まれているため、ブラウザツールは7段階のツールパイプラインの「OpenClaw 組み込みツール」ステージの一部として注入され、追加のインストールは不要です。
ブラウザツールの通信チェーンは以下のとおりです:AI Agent -> Tool Call -> サンドボックス化されたブラウザブリッジ -> ブラウザインスタンス(WebSocket プロトコル)。このアーキテクチャにより、ブラウザ操作が制御された環境で実行されます。
有効化と設定
基本設定
tools:
browser:
enabled: true
headless: true
bridgeUrl: "ws://localhost:9222"
defaultTimeout: 15000
viewport:
width: 1280
height: 720
詳細オプション
tools:
browser:
userAgent: "OpenClaw-Browser/1.0"
acceptLanguage: "zh-CN,zh;q=0.9,en;q=0.8"
ignoreHTTPSErrors: false
extraHTTPHeaders:
X-Custom-Header: "openclaw"
proxy:
server: "http://proxy.example.com:8080"
コア操作
ページナビゲーション
ブラウザツールは標準的なページナビゲーション操作をサポートします。AI エージェントは指定された URL を開き、ページの読み込み完了を待ってから後続の操作を実行できます。ナビゲーションは設定可能なタイムアウトと待機条件(特定の要素の出現を待つなど)をサポートしています。
要素インタラクション
ツールは豊富な要素インタラクション機能を提供します:
- クリック:セレクターで要素を特定してクリック
- 入力:入力フィールドにテキストを入力
- 選択:ドロップダウンメニューのオプションを操作
- ホバー:要素上にマウスカーソルを移動
- スクロール:ページまたはコンテナ内をスクロール
要素のターゲティングは CSS セレクターとテキスト内容のマッチングの両方をサポートしています。AI エージェントは通常、まずコンテンツ抽出機能でページ構造を理解してから、適切なターゲティング戦略を選択します。
コンテンツ抽出
ブラウザツールはページからさまざまな種類のコンテンツを抽出できます:
- テキストコンテンツ:ページからプレーンテキストを抽出し、非表示の要素や不可視テキストを自動的に処理
- 構造化データ:テーブルやリストなどの構造化情報を抽出
- リンク情報:ページからすべてのリンクとそのテキストを取得
- メタデータ:ページタイトル、説明、Open Graph タグなどを読み取り
スクリーンショット機能
スクリーンショットはブラウザツールの重要な機能です。フルページおよび特定領域のスクリーンショットに対応し、PNG または JPEG 形式で出力できます。スクリーンショットの結果は会話に直接表示するか、ファイルシステムに保存して後で使用できます。
tools:
browser:
screenshot:
format: png
quality: 80
fullPage: false
maxWidth: 1920
maxHeight: 1080
マルチタブ管理
ブラウザツールは複数のタブの同時管理をサポートしています。AI エージェントは異なるタブを切り替えて情報を比較し、ページ間のデータを統合できます。リソースの乱用を防ぐため、サンドボックスはタブの最大数を制限しています(デフォルトは3)。
Cookie と状態管理
Cookie 操作
ツールは Cookie の読み書き機能を提供します。これは認証が必要な操作に不可欠です。管理者は認証 Cookie を事前設定でき、AI エージェントが必要に応じて自動的に使用します。
セッション永続化
ブラウザの状態(Cookie やローカルストレージを含む)はセッション間で永続化できます。つまり、ある会話で AI エージェントが完了したログインは後続の会話でも有効であり、繰り返しの認証が不要になります。
他のツールとの連携
ブラウザツールは単独で使用されることは稀で、通常は他のツールと連携して複雑なタスクを完了します:
- Web ツールとの連携:ブラウザがインタラクティブ操作を処理し、Web ツールが API 呼び出しを処理
- キャンバスツールとの連携:Web ページから抽出したデータをキャンバスツールで可視化
- メッセージングツールとの連携:ブラウザのスクリーンショットや抽出情報をメッセージングツールで送信
セキュリティの考慮事項
- ドメインホワイトリスト:AI エージェントがアクセスすべきでないサイトにアクセスしないよう、常に
allowedDomainsを設定する - 認証情報の保護:会話を通じてパスワードを平文で渡さない。事前設定された認証方法を使用する
- ダウンロード制限:サンドボックスはデフォルトでファイルダウンロードをブロック。必要な場合は許可するファイルタイプを慎重に設定する
- JavaScript 実行:ブラウザツールはページへのスクリプト注入をサポート。強力な機能なので慎重に使用する
トラブルシューティング
- ページ読み込みタイムアウト:ネットワーク接続と
defaultTimeout設定を確認 - 要素が見つからない:セレクターが正しいか、ページが完全に読み込まれているかを確認
- ブリッジ接続エラー:ブラウザインスタンスの状態と
bridgeUrl設定を確認 - 空白のスクリーンショット:ビューポートサイズの設定とページのレンダリング状態を確認
まとめ
ブラウザツールは OpenClaw の AI エージェントに真の Web インタラクション能力を与えます。適切な設定とセキュリティ制約により、シンプルな情報検索から複雑な複数ステップの Web 操作まで、安全かつ効率的に処理できます。