语音消息处理的挑战
在聊天平台中,用户经常发送语音消息。然而,大语言模型通常只能处理文本输入,无法直接理解语音内容。这意味着如果不进行语音转文字的预处理,AI助手将无法回应用户的语音消息。
OpenClaw通过集成Deepgram语音转录服务解决了这个问题。Deepgram是一个专业的语音识别(ASR)平台,以高准确率、低延迟和合理的定价而著称。当用户发送语音消息时,OpenClaw会自动将语音内容发送到Deepgram进行转录,然后将转录文本传递给大模型处理。整个过程对用户完全透明。
Deepgram的技术优势
选择Deepgram作为语音转录引擎有以下考量:
- 高准确率:Deepgram使用端到端深度学习模型,在各种口音和噪声环境下都保持较高的识别准确率。
- 低延迟:支持实时流式转录和快速批量转录,能够在几秒内完成语音处理。
- 多语言支持:支持数十种语言的语音识别,包括中文、英文、日文等。
- 成本效益:相比同类服务,Deepgram提供有竞争力的价格。
获取Deepgram API密钥
- 访问Deepgram官网(deepgram.com)注册账户。
- 在控制台中创建一个新项目。
- 在项目设置的API Keys页面生成新的密钥。
- 选择合适的权限范围(至少需要转录权限)。
- 保存好你的API密钥。
Deepgram为新用户提供一定额度的免费转录时长,足以完成测试。
配置Deepgram
使用Onboard工具
openclaw onboard
在引导流程中,当系统询问是否配置语音转录服务时选择"是",然后选择Deepgram并输入API密钥。
手动配置
在openclaw.json中添加Deepgram配置:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "你的Deepgram API密钥"
}
}
}
注意Deepgram的配置位置与大模型提供商不同。它位于配置文件的transcription部分而非providers部分,因为Deepgram提供的是语音转录服务而非对话模型。
高级配置选项
你可以对转录行为进行更细粒度的控制:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "你的Deepgram API密钥"
},
"model": "nova-2",
"language": "zh",
"punctuate": true,
"smart_format": true
}
}
- model:选择Deepgram的转录模型,nova-2是当前推荐的最新模型。
- language:指定语音的主要语言,设为"zh"优化中文识别。
- punctuate:自动添加标点符号。
- smart_format:启用智能格式化,自动处理数字、日期等格式。
工作流程详解
当Deepgram配置完成后,语音消息的处理流程如下:
- 用户在聊天平台(如Discord、Telegram)中发送语音消息。
- OpenClaw接收到语音消息,检测到是音频内容。
- OpenClaw将音频数据发送到Deepgram的转录API。
- Deepgram返回转录文本。
- OpenClaw将转录文本作为用户输入传递给配置的大模型。
- 大模型生成回复,OpenClaw将回复发送回聊天平台。
整个过程通常在几秒内完成,用户只需发送语音即可收到AI的文字回复。
多语言语音识别
如果你的用户群体使用多种语言,Deepgram支持自动语言检测:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "你的API密钥"
},
"model": "nova-2",
"detect_language": true
}
}
启用detect_language后,Deepgram会自动识别语音中的语言并进行转录,无需预先指定语言。
与大模型的配合
Deepgram转录服务可以与OpenClaw支持的任何大模型配合使用。一个典型的完整配置如下:
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-opus-4-5"
}
}
},
"transcription": {
"provider": "deepgram",
"auth": {
"key": "Deepgram密钥"
}
}
}
这样配置后,文字消息直接由Claude处理,语音消息先经Deepgram转录再交由Claude处理。
成本考量
Deepgram按音频时长计费。控制成本的建议:
- 设置合理的最大语音时长限制,避免处理过长的语音消息。
- 关注Deepgram控制台的用量统计,及时调整配额。
- 对于低频使用场景,Deepgram的免费额度可能已经足够。
验证配置
配置完成后,在你的聊天平台中发送一条语音消息进行测试。如果一切配置正确,你应该能够收到AI基于语音内容生成的文字回复。查看OpenClaw日志可以看到语音转录和模型调用的详细过程。