음성 메시지 처리의 과제
채팅 플랫폼에서 사용자는 자주 음성 메시지를 보냅니다. 그러나 대규모 언어 모델은 보통 텍스트 입력만 처리할 수 있어 음성 내용을 직접 이해하지 못합니다. 음성을 텍스트로 변환하는 전처리 없이는 AI 어시스턴트가 사용자의 음성 메시지에 응답할 수 없습니다.
OpenClaw은 Deepgram 음성 전사 서비스 통합을 통해 이 문제를 해결합니다. Deepgram은 높은 정확도, 낮은 지연, 합리적인 가격으로 알려진 전문 음성 인식(ASR) 플랫폼입니다. 사용자가 음성 메시지를 보내면 OpenClaw이 자동으로 음성 내용을 Deepgram에 전송하여 전사한 후, 전사된 텍스트를 대규모 모델에 전달하여 처리합니다. 전체 과정은 사용자에게 완전히 투명합니다.
Deepgram의 기술적 장점
- 높은 정확도: 다양한 억양과 소음 환경에서 높은 인식 정확도 유지
- 낮은 지연: 실시간 스트리밍 전사와 빠른 배치 전사 지원
- 다국어 지원: 한국어, 중국어, 영어, 일본어 등 수십 개 언어의 음성 인식 지원
- 비용 효율성: 동류 서비스 대비 경쟁력 있는 가격
Deepgram API 키 발급
- Deepgram 공식 사이트(deepgram.com)에서 계정을 등록합니다.
- 콘솔에서 새 프로젝트를 생성합니다.
- 프로젝트 설정의 API Keys 페이지에서 새 키를 생성합니다.
- 적절한 권한 범위를 선택합니다 (최소한 전사 권한 필요).
- API 키를 안전하게 저장합니다.
Deepgram은 신규 사용자에게 일정 분량의 무료 전사 시간을 제공하며, 테스트를 완료하기에 충분합니다.
Deepgram 설정
Onboard 도구 사용
openclaw onboard
가이드 과정에서 음성 전사 서비스를 설정할지 묻는 질문에 "예"를 선택하고 Deepgram을 선택한 후 API 키를 입력합니다.
수동 설정
openclaw.json에 Deepgram 설정을 추가합니다:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "Deepgram API 키"
}
}
}
고급 설정 옵션
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "Deepgram API 키"
},
"model": "nova-2",
"language": "ko",
"punctuate": true,
"smart_format": true
}
}
- model: Deepgram의 전사 모델 선택. nova-2가 현재 권장되는 최신 모델입니다.
- language: 음성의 주요 언어 지정. "ko"로 설정하면 한국어 인식에 최적화됩니다.
- punctuate: 자동 구두점 추가.
- smart_format: 스마트 포맷팅 활성화, 숫자, 날짜 등의 형식을 자동 처리.
처리 흐름 상세
Deepgram 설정이 완료되면 음성 메시지 처리 흐름:
- 사용자가 채팅 플랫폼(Discord, Telegram 등)에서 음성 메시지를 전송
- OpenClaw이 음성 메시지를 수신하고 오디오 콘텐츠임을 감지
- OpenClaw이 오디오 데이터를 Deepgram 전사 API로 전송
- Deepgram이 전사 텍스트를 반환
- OpenClaw이 전사 텍스트를 사용자 입력으로 설정된 대규모 모델에 전달
- 대규모 모델이 응답을 생성하고 OpenClaw이 응답을 채팅 플랫폼으로 전송
전체 과정은 보통 몇 초 이내에 완료되며, 사용자는 음성을 보내기만 하면 AI의 텍스트 응답을 받을 수 있습니다.
다국어 음성 인식
사용자 그룹이 여러 언어를 사용하는 경우 Deepgram의 자동 언어 감지를 지원합니다:
{
"transcription": {
"provider": "deepgram",
"auth": {
"key": "API 키"
},
"model": "nova-2",
"detect_language": true
}
}
detect_language를 활성화하면 Deepgram이 음성의 언어를 자동으로 식별하여 전사합니다.
비용 고려사항
Deepgram은 오디오 시간 기준으로 요금을 청구합니다. 비용 제어 팁:
- 합리적인 최대 음성 길이 제한을 설정하여 너무 긴 음성 메시지 처리를 방지합니다.
- Deepgram 콘솔의 사용량 통계를 주시하며 적시에 쿼터를 조정합니다.
- 저빈도 사용 시나리오에서는 Deepgram의 무료 쿼터만으로 충분할 수 있습니다.
설정 검증
설정 완료 후 채팅 플랫폼에서 음성 메시지를 보내 테스트합니다. 설정이 올바르면 음성 내용을 기반으로 생성된 AI의 텍스트 응답을 받을 수 있습니다. OpenClaw 로그에서 음성 전사와 모델 호출의 상세 과정을 확인할 수 있습니다.