서문
OpenClaw는 Anthropic Claude, OpenAI GPT, Google Gemini, Ollama 로컬 모델, DeepSeek, Mistral 등 다양한 AI 모델 제공자와 연동할 수 있습니다. 이렇게 많은 선택지 앞에서 어떤 모델을 선택해야 할지 고민하는 사용자가 많습니다. 본 문서에서는 여러 차원에서 종합적으로 비교하여 자신에게 가장 적합한 모델 조합 방안을 찾도록 도와드립니다.
종합 평가표
다음은 2026년 3월 기준 주요 모델의 종합 평가입니다:
| 모델 | 종합 품질 | 중국어 능력 | 코드 능력 | 추론 능력 | 응답 속도 | 비용 |
|---|---|---|---|---|---|---|
| Claude Sonnet 4 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ | 중상 |
| Claude Haiku 3.5 | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★★ | 낮음 |
| GPT-4o | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | 중간 |
| GPT-4o mini | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★★ | 매우 낮음 |
| o3 | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★☆☆ | 높음 |
| Gemini 2.5 Pro | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★☆ | 중간 |
| Gemini 2.5 Flash | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★★ | 낮음 |
| DeepSeek V3 | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ | 매우 낮음 |
| Qwen 2.5 72B | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | 낮음 |
| Llama 3.3 70B | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | 무료* |
| Mistral Large | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | 중간 |
*로컬 배포 시 무료, API 제공자를 통해 사용 시 유료.
비용 상세 비교
API 가격표 (백만 토큰당)
| 모델 | 입력 가격 | 출력 가격 | 1,000회 대화 추정 비용 |
|---|---|---|---|
| Claude Sonnet 4 | $3.00 | $15.00 | ~$18.00 |
| Claude Haiku 3.5 | $0.80 | $4.00 | ~$4.80 |
| GPT-4o | $2.50 | $10.00 | ~$12.50 |
| GPT-4o mini | $0.15 | $0.60 | ~$0.75 |
| o3 | $10.00 | $40.00 | ~$50.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 | ~$11.25 |
| Gemini 2.5 Flash | $0.15 | $0.60 | ~$0.75 |
| DeepSeek V3 | $0.14 | $0.28 | ~$0.42 |
| Mistral Large | $2.00 | $6.00 | ~$8.00 |
| 로컬 모델 (Ollama) | $0 | $0 | $0 (전기요금 제외) |
*대화당 평균 입력 500 토큰, 출력 500 토큰 기준.
월간 비용 추정
일일 100회 대화, 월간 3,000회 기준:
| 모델 방안 | 월간 비용 | 적합 대상 |
|---|---|---|
| GPT-4o mini 전량 사용 | ~$2.25 | 예산이 매우 제한적인 경우 |
| Gemini 2.5 Flash | ~$2.25 | 무료 할당량 내 무비용 가능 |
| DeepSeek V3 | ~$1.26 | 극강 가성비 |
| GPT-4o | ~$37.50 | 중간 예산 |
| Claude Sonnet 4 | ~$54.00 | 최고 품질 추구 |
| 로컬 Qwen 2.5 32B | $0 | 독립 GPU 보유 사용자 |
각 차원 심층 비교
중국어 능력 평가
중국어 사용 시 모델 간 성능 차이가 뚜렷합니다:
| 테스트 항목 | Claude Sonnet 4 | GPT-4o | Gemini 2.5 Pro | DeepSeek V3 | Qwen 2.5 72B |
|---|---|---|---|---|---|
| 중국어 작문 | 우수 | 양호 | 양호 | 우수 | 우수 |
| 중국어 이해 | 우수 | 우수 | 양호 | 우수 | 우수 |
| 사자성어 활용 | 양호 | 보통 | 보통 | 우수 | 우수 |
| 고전 번역 | 양호 | 양호 | 보통 | 우수 | 우수 |
| 중국어 코드 주석 | 우수 | 우수 | 양호 | 우수 | 양호 |
중국어 사용 사례 추천 순서: DeepSeek V3 ≈ Qwen 2.5 ≈ Claude Sonnet 4 > GPT-4o > Gemini 2.5 Pro
코드 능력 평가
| 테스트 항목 | Claude Sonnet 4 | GPT-4o | o3 | Gemini 2.5 Pro | DeepSeek V3 |
|---|---|---|---|---|---|
| 코드 생성 | 우수 | 우수 | 우수 | 우수 | 우수 |
| 버그 수정 | 우수 | 양호 | 우수 | 양호 | 양호 |
| 코드 설명 | 우수 | 우수 | 우수 | 우수 | 양호 |
| 다중 파일 이해 | 우수 | 양호 | 양호 | 우수 | 양호 |
| 단위 테스트 | 우수 | 양호 | 우수 | 양호 | 양호 |
코드 사용 사례 추천 순서: Claude Sonnet 4 ≈ o3 > GPT-4o ≈ Gemini 2.5 Pro > DeepSeek V3
추론 능력 평가
| 테스트 항목 | Claude Sonnet 4 | o3 | Gemini 2.5 Pro | DeepSeek R1 | GPT-4o |
|---|---|---|---|---|---|
| 수학 추론 | 양호 | 우수 | 우수 | 우수 | 양호 |
| 논리 추론 | 우수 | 우수 | 우수 | 우수 | 양호 |
| 다단계 추론 | 우수 | 우수 | 우수 | 우수 | 양호 |
| 상식 추론 | 우수 | 우수 | 양호 | 양호 | 우수 |
추론 사용 사례 추천 순서: o3 ≈ Gemini 2.5 Pro ≈ DeepSeek R1 > Claude Sonnet 4 > GPT-4o
프라이버시 및 보안 비교
| 제공자 | 데이터 저장 | 학습 사용 | 배포 방식 | 컴플라이언스 인증 |
|---|---|---|---|---|
| Anthropic (Claude) | API 호출 비저장 | 학습에 사용 안 함 | 클라우드 | SOC 2 |
| OpenAI (GPT) | 기본 비저장 | API는 학습에 사용 안 함 | 클라우드/Azure | SOC 2, GDPR |
| Google (Gemini) | API 비저장 | 무료 계층은 학습에 사용될 수 있음 | 클라우드/Vertex | ISO 27001 |
| Ollama (로컬) | 완전 로컬 | 해당 없음 | 로컬 | 해당 없음 |
| DeepSeek | 저장 가능성 있음 | 정책 불명확 | 클라우드 | 제한적 |
프라이버시 민감 사용 사례 추천 순서: 로컬 모델 > Claude/GPT (API) > Gemini (Vertex) > DeepSeek
사용 사례별 추천 방안
개인 일상 사용 (월 예산 $0-10)
{
models: {
primary: {
provider: "google",
apiKey: "${GOOGLE_AI_API_KEY}",
defaultModel: "gemini-2.5-flash", // 무료 할당량 내 사용
},
fallback: {
provider: "ollama",
baseUrl: "http://localhost:11434",
defaultModel: "qwen2.5:7b", // 무료 할당량 소진 후 로컬로 전환
}
}
}
전문 개발자 (월 예산 $20-50)
{
models: {
coding: {
provider: "anthropic",
apiKey: "${ANTHROPIC_API_KEY}",
defaultModel: "claude-sonnet-4", // 코드 작업에 Claude 사용
},
daily: {
provider: "openai",
apiKey: "${OPENAI_API_KEY}",
defaultModel: "gpt-4o-mini", // 일상 대화에 저렴한 모델 사용
}
}
}
중국어 콘텐츠 제작 (월 예산 $10-30)
{
models: {
writing: {
provider: "deepseek",
apiKey: "${DEEPSEEK_API_KEY}",
defaultModel: "deepseek-chat", // 극강 가성비 중국어 모델
},
review: {
provider: "anthropic",
apiKey: "${ANTHROPIC_API_KEY}",
defaultModel: "claude-haiku-3.5", // 교정 및 윤문
}
}
}
기업 팀 (월 예산 $100+)
{
models: {
primary: {
provider: "anthropic",
apiKey: "${ANTHROPIC_API_KEY}",
defaultModel: "claude-sonnet-4",
},
fast: {
provider: "openai",
apiKey: "${OPENAI_API_KEY}",
defaultModel: "gpt-4o-mini",
},
reasoning: {
provider: "openai",
apiKey: "${OPENAI_API_KEY}",
defaultModel: "o3",
}
}
}
완전 오프라인/프라이버시 우선
{
models: {
local: {
provider: "ollama",
baseUrl: "http://localhost:11434",
defaultModel: "qwen2.5:32b-instruct-q4_K_M",
}
}
}
하이브리드 모델 전략
가장 현명한 접근법은 작업 유형에 따라 자동으로 모델을 선택하는 것입니다:
{
models: {
"tier-1": {
provider: "anthropic",
defaultModel: "claude-sonnet-4",
// 용도: 복잡한 분석, 장문 작성, 코드 리뷰
},
"tier-2": {
provider: "google",
defaultModel: "gemini-2.5-flash",
// 용도: 일상 대화, 간단한 질의응답, 번역
},
"tier-3": {
provider: "ollama",
defaultModel: "qwen2.5:7b",
// 용도: 오프라인 환경, 민감한 데이터, 네트워크 없을 때
}
},
routing: {
default: "tier-2",
complex: "tier-1",
offline: "tier-3",
}
}
자주 묻는 질문
어떤 모델부터 시작해야 하나요?
신규 사용자라면 Gemini 2.5 Flash부터 시작하는 것을 권장합니다. 무료이고, 속도가 빠르며, 품질도 괜찮습니다. 익숙해진 후 필요에 따라 더 좋은 모델로 업그레이드하면 됩니다.
여러 모델을 동시에 설정할 수 있나요?
가능합니다. OpenClaw는 원하는 만큼의 모델을 설정하고, 각 채널에 서로 다른 모델을 할당할 수 있습니다.
모델 간 전환이 가능한가요?
설정 파일을 수정하고 openclaw restart를 실행하면 모델을 전환할 수 있습니다.
요약
"최고의 모델"은 없으며, 자신의 사용 사례에 가장 적합한 모델이 있을 뿐입니다. 품질을 추구한다면 Claude Sonnet 4, 가성비를 추구한다면 DeepSeek V3 또는 Gemini Flash, 프라이버시를 추구한다면 로컬 Ollama, 추론 능력을 추구한다면 o3 또는 Gemini 2.5 Pro를 선택하십시오. 대부분의 경우, 여러 모델을 혼합하여 사용하는 것이 가장 현명한 전략입니다.