音声メッセージ処理の課題
チャットプラットフォームでは、ユーザーが音声メッセージを送信することがよくあります。しかし、大規模言語モデルは通常テキスト入力のみを処理でき、音声内容を直接理解することができません。つまり、音声テキスト変換の前処理を行わなければ、AI アシスタントはユーザーの音声メッセージに応答できないことになります。
OpenClaw は Deepgram 音声転写サービスの統合によりこの問題を解決します。Deepgram は高精度、低レイテンシ、リーズナブルな価格設定で知られるプロフェッショナルな音声認識(ASR)プラットフォームです。ユーザーが音声メッセージを送信すると、OpenClaw は自動的に音声コンテンツを Deepgram に送信して転写し、転写テキストを大規模言語モデルに渡して処理します。このプロセス全体はユーザーに対して完全に透過的です。
Deepgram の技術的優位性
音声転写エンジンとして Deepgram を選択した理由は以下のとおりです:
- 高精度:Deepgram はエンドツーエンドのディープラーニングモデルを使用し、さまざまなアクセントやノイズ環境でも高い認識精度を維持します。
- 低レイテンシ:リアルタイムストリーミング転写と高速バッチ転写をサポートし、数秒以内に音声処理を完了できます。
- 多言語対応:中国語、英語、日本語など、数十の言語の音声認識をサポートしています。
- コスト効率:同類のサービスと比較して、Deepgram は競争力のある価格を提供しています。
Deepgram API キーの取得
- Deepgram 公式サイト(deepgram.com)にアクセスしてアカウントを登録します。
- コンソールで新しいプロジェクトを作成します。
- プロジェクト設定の API Keys ページで新しいキーを生成します。
- 適切な権限スコープを選択します(少なくとも転写権限が必要です)。
- API キーを安全に保存します。
Deepgram は新規ユーザーに一定量の無料転写時間を提供しており、テストを完了するのに十分です。
Deepgram の設定
Onboard ツールの使用
openclaw onboard
ガイドプロセスで、音声転写サービスを設定するかどうか聞かれたら「はい」を選択し、Deepgram を選んで API キーを入力します。
手動設定
openclaw.json に Deepgram 設定を追加します:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "あなたのDeepgram APIキー"
}
}
}
Deepgram の設定場所は大規模言語モデルプロバイダーとは異なることに注意してください。Deepgram は対話モデルではなく音声転写サービスを提供するため、設定ファイルの providers セクションではなく transcription セクションに配置されます。
高度な設定オプション
転写動作をより細かく制御できます:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "あなたのDeepgram APIキー"
},
"model": "nova-2",
"language": "zh",
"punctuate": true,
"smart_format": true
}
}
- model:Deepgram の転写モデルを選択します。nova-2 は現在推奨されている最新モデルです。
- language:音声の主要言語を指定します。"zh" に設定すると中国語認識が最適化されます。
- punctuate:自動的に句読点を追加します。
- smart_format:スマートフォーマットを有効にし、数字や日付などのフォーマットを自動処理します。
ワークフローの詳細
Deepgram の設定が完了すると、音声メッセージの処理フローは以下のようになります:
- ユーザーがチャットプラットフォーム(Discord、Telegram など)で音声メッセージを送信します。
- OpenClaw が音声メッセージを受信し、オーディオコンテンツであることを検出します。
- OpenClaw がオーディオデータを Deepgram の転写 API に送信します。
- Deepgram が転写テキストを返します。
- OpenClaw が転写テキストをユーザー入力として設定済みの大規模言語モデルに渡します。
- 大規模言語モデルが回答を生成し、OpenClaw が回答をチャットプラットフォームに返送します。
プロセス全体は通常数秒以内に完了し、ユーザーは音声を送信するだけで AI のテキスト回答を受け取ることができます。
多言語音声認識
ユーザーが複数の言語を使用する場合、Deepgram は自動言語検出をサポートしています:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "あなたのAPIキー"
},
"model": "nova-2",
"detect_language": true
}
}
detect_language を有効にすると、Deepgram は音声中の言語を自動的に識別して転写を行い、事前に言語を指定する必要がなくなります。
大規模言語モデルとの連携
Deepgram 転写サービスは、OpenClaw がサポートするあらゆる大規模言語モデルと組み合わせて使用できます。典型的な完全な設定は以下のとおりです:
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-opus-4-5"
}
}
},
"transcription": {
"provider": "deepgram",
"auth": {
"key": "Deepgramキー"
}
}
}
この設定により、テキストメッセージは Claude が直接処理し、音声メッセージは Deepgram で転写された後に Claude が処理します。
コストの考慮
Deepgram はオーディオ時間に基づいて課金されます。コスト管理のアドバイス:
- 合理的な最大音声時間制限を設定し、過度に長い音声メッセージの処理を避けます。
- Deepgram コンソールの使用量統計を注視し、適時にクォータを調整します。
- 使用頻度が低いシナリオでは、Deepgram の無料枠で十分な場合があります。
設定の検証
設定完了後、チャットプラットフォームで音声メッセージを送信してテストします。すべてが正しく設定されていれば、音声内容に基づいた AI のテキスト回答を受け取れるはずです。OpenClaw のログを確認すると、音声転写とモデル呼び出しの詳細なプロセスを確認できます。