首页 教程 分类 Skills下载 关于
ZH EN JA KO
模型接入

OpenClaw语音转文字:Deepgram转录服务配置

· 7 分钟

语音消息处理的挑战

在聊天平台中,用户经常发送语音消息。然而,大语言模型通常只能处理文本输入,无法直接理解语音内容。这意味着如果不进行语音转文字的预处理,AI助手将无法回应用户的语音消息。

OpenClaw通过集成Deepgram语音转录服务解决了这个问题。Deepgram是一个专业的语音识别(ASR)平台,以高准确率、低延迟和合理的定价而著称。当用户发送语音消息时,OpenClaw会自动将语音内容发送到Deepgram进行转录,然后将转录文本传递给大模型处理。整个过程对用户完全透明。

Deepgram的技术优势

选择Deepgram作为语音转录引擎有以下考量:

  • 高准确率:Deepgram使用端到端深度学习模型,在各种口音和噪声环境下都保持较高的识别准确率。
  • 低延迟:支持实时流式转录和快速批量转录,能够在几秒内完成语音处理。
  • 多语言支持:支持数十种语言的语音识别,包括中文、英文、日文等。
  • 成本效益:相比同类服务,Deepgram提供有竞争力的价格。

获取Deepgram API密钥

  1. 访问Deepgram官网(deepgram.com)注册账户。
  2. 在控制台中创建一个新项目。
  3. 在项目设置的API Keys页面生成新的密钥。
  4. 选择合适的权限范围(至少需要转录权限)。
  5. 保存好你的API密钥。

Deepgram为新用户提供一定额度的免费转录时长,足以完成测试。

配置Deepgram

使用Onboard工具

openclaw onboard

在引导流程中,当系统询问是否配置语音转录服务时选择"是",然后选择Deepgram并输入API密钥。

手动配置

openclaw.json中添加Deepgram配置:

{
  "transcription": {
    "provider": "deepgram",
    "auth": {
      "key": "你的Deepgram API密钥"
    }
  }
}

注意Deepgram的配置位置与大模型提供商不同。它位于配置文件的transcription部分而非providers部分,因为Deepgram提供的是语音转录服务而非对话模型。

高级配置选项

你可以对转录行为进行更细粒度的控制:

{
  "transcription": {
    "provider": "deepgram",
    "auth": {
      "key": "你的Deepgram API密钥"
    },
    "model": "nova-2",
    "language": "zh",
    "punctuate": true,
    "smart_format": true
  }
}
  • model:选择Deepgram的转录模型,nova-2是当前推荐的最新模型。
  • language:指定语音的主要语言,设为"zh"优化中文识别。
  • punctuate:自动添加标点符号。
  • smart_format:启用智能格式化,自动处理数字、日期等格式。

工作流程详解

当Deepgram配置完成后,语音消息的处理流程如下:

  1. 用户在聊天平台(如Discord、Telegram)中发送语音消息。
  2. OpenClaw接收到语音消息,检测到是音频内容。
  3. OpenClaw将音频数据发送到Deepgram的转录API。
  4. Deepgram返回转录文本。
  5. OpenClaw将转录文本作为用户输入传递给配置的大模型。
  6. 大模型生成回复,OpenClaw将回复发送回聊天平台。

整个过程通常在几秒内完成,用户只需发送语音即可收到AI的文字回复。

多语言语音识别

如果你的用户群体使用多种语言,Deepgram支持自动语言检测:

{
  "transcription": {
    "provider": "deepgram",
    "auth": {
      "key": "你的API密钥"
    },
    "model": "nova-2",
    "detect_language": true
  }
}

启用detect_language后,Deepgram会自动识别语音中的语言并进行转录,无需预先指定语言。

与大模型的配合

Deepgram转录服务可以与OpenClaw支持的任何大模型配合使用。一个典型的完整配置如下:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-opus-4-5"
      }
    }
  },
  "transcription": {
    "provider": "deepgram",
    "auth": {
      "key": "Deepgram密钥"
    }
  }
}

这样配置后,文字消息直接由Claude处理,语音消息先经Deepgram转录再交由Claude处理。

成本考量

Deepgram按音频时长计费。控制成本的建议:

  • 设置合理的最大语音时长限制,避免处理过长的语音消息。
  • 关注Deepgram控制台的用量统计,及时调整配额。
  • 对于低频使用场景,Deepgram的免费额度可能已经足够。

验证配置

配置完成后,在你的聊天平台中发送一条语音消息进行测试。如果一切配置正确,你应该能够收到AI基于语音内容生成的文字回复。查看OpenClaw日志可以看到语音转录和模型调用的详细过程。

OpenClaw 是开源免费的个人AI助手,支持 WhatsApp、Telegram、Discord 等多平台接入