튜토리얼 카테고리 Skills 소개
ZH EN JA KO
모델 연결

OpenClaw 로컬 대규모 모델 선정 및 배포 가이드

· 10 분 소요

서문

로컬 대규모 모델은 OpenClaw 생태계에서 매우 중요한 선택지입니다. 완전 무료이고 데이터가 로컬을 벗어나지 않으며 네트워크 지연 제한이 없습니다. 오픈소스 모델의 빠른 발전으로, 이제 소비자급 GPU에서도 성능이 우수한 대규모 모델을 충분히 실행할 수 있게 되었습니다. 본 문서에서는 로컬 모델의 배포 방안과 선정 가이드를 상세히 소개합니다.

로컬 실행 방안 비교

현재 주요 로컬 모델 실행 방안은 세 가지입니다:

방안 특징 적합 대상 학습 비용
Ollama 커맨드라인 도구, 원클릭 설치 개발자, Linux 사용자 낮음
LM Studio 그래픽 인터페이스, 모델 스토어 초보자, Windows/Mac 사용자 매우 낮음
llama.cpp 저수준 런타임, 가장 유연함 고급 사용자, 커스텀 요구사항 높음

Ollama (권장)

Ollama는 가장 인기 있는 로컬 모델 실행 도구로, OpenClaw와의 통합이 가장 완벽합니다.

설치 방법:

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows
# ollama.com에서 설치 프로그램 다운로드

기본 사용법:

# 모델 다운로드 및 실행
ollama pull llama3.3:70b

# Ollama 서비스 시작 (보통 설치 후 자동 시작)
ollama serve

# 다운로드한 모델 목록 확인
ollama list

LM Studio

LM Studio는 친화적인 그래픽 인터페이스를 제공하며, 원클릭으로 모델을 다운로드하고 실행할 수 있습니다.

  1. lmstudio.ai에서 다운로드 및 설치합니다
  2. 모델 스토어에서 모델을 검색하여 다운로드합니다
  3. 로컬 서버를 시작합니다 (기본 포트 1234)

llama.cpp

llama.cpp는 저수준 추론 엔진으로, Ollama도 실제로 이것을 기반으로 구축되었습니다. 세밀한 제어가 필요한 고급 사용자에게 적합합니다.

# 빌드 (cmake 필요)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON    # GPU 가속
cmake --build build --config Release

# 모델 실행
./build/bin/llama-server -m model.gguf --port 8080

하드웨어 요구사항과 모델 선정

VRAM별 모델 추천

모델 크기와 VRAM 요구사항은 직접적으로 관련됩니다. 다음은 VRAM 용량별 추천 사항입니다:

8GB VRAM (RTX 4060 / RTX 3070 등)

모델 파라미터 수 양자화 수준 VRAM 사용량 성능 평가
Llama 3.2 3B 3B Q8_0 ~4 GB 간단한 대화 가능
Qwen 2.5 7B 7B Q4_K_M ~5 GB 중국어 성능 우수
Mistral 7B 7B Q4_K_M ~5 GB 영어 능력 뛰어남
DeepSeek V2 Lite 16B 16B Q3_K_M ~7 GB MoE 아키텍처, 추론 속도 빠름
# 8GB VRAM 추천 다운로드
ollama pull qwen2.5:7b-instruct-q4_K_M

16GB VRAM (RTX 4080 / RTX 4070 Ti 등)

모델 파라미터 수 양자화 수준 VRAM 사용량 성능 평가
Llama 3.3 8B 8B Q8_0 ~9 GB 고품질, 추천
Qwen 2.5 14B 14B Q4_K_M ~10 GB 중국어 최강 중 하나
Mistral Small 22B 22B Q4_K_M ~14 GB 다국어 강점
DeepSeek V3 Lite 24B Q4_K_M ~15 GB 추론 능력 뛰어남
# 16GB VRAM 추천 다운로드
ollama pull qwen2.5:14b-instruct-q4_K_M
ollama pull llama3.3:8b-instruct-q8_0

24GB VRAM (RTX 4090 / RTX 3090 등)

모델 파라미터 수 양자화 수준 VRAM 사용량 성능 평가
Llama 3.3 70B 70B Q4_K_M ~42 GB* CPU offload 필요
Qwen 2.5 32B 32B Q4_K_M ~20 GB 매우 강력한 중국어 능력
DeepSeek R1 32B 32B Q4_K_M ~20 GB 추론 강화 모델
Mistral Large 123B 123B Q2_K ~48 GB* CPU offload 필요

*VRAM을 초과하는 모델은 메모리에 부분적으로 로드할 수 있지만, 속도가 저하됩니다.

# 24GB VRAM 추천 다운로드
ollama pull qwen2.5:32b-instruct-q4_K_M
ollama pull deepseek-r1:32b

독립 GPU 미보유 / CPU 추론

독립 GPU가 없어도 CPU 추론을 사용할 수 있지만, 속도가 느립니다:

# CPU 추론에는 작은 모델 추천
ollama pull llama3.2:3b-instruct-q4_K_M
ollama pull qwen2.5:3b-instruct-q4_K_M

3B 모델에는 최소 16GB RAM, 7B 모델에는 32GB RAM을 권장합니다.

양자화 수준 상세 설명

양자화는 모델 가중치를 고정밀도 (FP16)에서 저정밀도로 압축하여 VRAM 사용량을 줄이는 과정입니다:

양자화 수준 정밀도 손실 크기 (FP16 대비) 추천 정도
Q8_0 극소 ~50% VRAM 충분 시 우선 선택
Q6_K 매우 작음 ~43% 품질과 크기의 좋은 균형
Q5_K_M 작음 ~37% 추천
Q4_K_M 보통 ~30% 가장 많이 사용, 추천
Q3_K_M ~23% VRAM 부족 시 사용
Q2_K 매우 큼 ~18% 부득이한 경우에만 사용

경험 법칙: Q4_K_M이 최고의 가성비이며, VRAM 여유가 있을 때는 Q6_K 또는 Q8_0을 사용합니다.

OpenClaw 설정

Ollama 연결

{
  models: {
    ollama: {
      provider: "ollama",
      baseUrl: "http://localhost:11434",    // Ollama 기본 포트
      defaultModel: "qwen2.5:14b-instruct-q4_K_M",
      parameters: {
        temperature: 0.7,
        maxTokens: 4096,
        numCtx: 8192,       // 컨텍스트 윈도우 크기
      }
    }
  }
}

LM Studio 연결

{
  models: {
    lmstudio: {
      provider: "openai",                   // LM Studio는 OpenAI API와 호환
      baseUrl: "http://localhost:1234/v1",   // LM Studio 기본 주소
      apiKey: "lm-studio",                   // LM Studio는 키 검증 없음
      defaultModel: "loaded-model",          // 현재 로드된 모델 사용
    }
  }
}

llama.cpp server 연결

{
  models: {
    llamacpp: {
      provider: "openai",                      // OpenAI API와 호환
      baseUrl: "http://localhost:8080/v1",
      apiKey: "none",
      defaultModel: "local-model",
    }
  }
}

속도와 품질 간의 균형

추론 속도에 영향을 미치는 요소

  1. VRAM 대역폭: RTX 4090 (1 TB/s)은 RTX 4060 (272 GB/s)보다 훨씬 빠름
  2. 모델 크기: 파라미터가 많을수록 느림
  3. 양자화 수준: 낮은 양자화가 더 빠르지만 품질 저하
  4. 컨텍스트 길이: 긴 대화는 느려짐
  5. 동시 접속 수: 여러 사용자가 동시에 사용하면 느려짐

속도 참고 (RTX 4090, Q4_K_M 양자화)

모델 생성 속도 (tokens/s) 체감
3B 120+ 매우 빠름
7B 80-100 빠름
14B 45-60 원활
32B 20-30 수용 가능
70B (부분 offload) 5-10 느림

추천 모델 종합 정리

용도 추천 모델 설명
중국어 대화 Qwen 2.5 (7B/14B/32B) 중국어 능력 최강
영어 대화 Llama 3.3 (8B/70B) 종합 능력 우수
코드 생성 DeepSeek Coder V2 코드 특화
추론 분석 DeepSeek R1 (32B) 사고 체인 추론
다국어 Mistral (7B/22B) 다국어 균형
극저자원 Llama 3.2 3B 최소 실행 가능 모델

자주 묻는 질문

Ollama 연결 불가

# Ollama가 실행 중인지 확인
curl http://localhost:11434/api/version

# 실행 중이 아니면 수동 시작
ollama serve

모델 로딩 실패

Error: model requires more memory than available

해결 방법:

  • 더 낮은 양자화 수준 사용 (예: Q3_K_M)
  • 파라미터가 더 작은 모델로 전환
  • VRAM을 점유하는 다른 프로그램 종료

중국어 깨짐

일부 모델은 중국어 지원이 부족합니다. 중국어에 특화된 최적화가 되어 있는 Qwen 시리즈 또는 DeepSeek 시리즈 모델 사용을 권장합니다.

요약

로컬 대규모 모델은 데이터 프라이버시와 무비용 운영을 추구하는 사용자에게 최적의 선택입니다. Ollama는 OpenClaw와의 통합이 가장 편리한 방안입니다. VRAM이 허용하는 한, 가능한 큰 모델과 높은 양자화 수준을 선택하십시오. 중국어 사용 시 Qwen 시리즈를 우선, 영어 사용 시 Llama 시리즈를 우선 선택합니다. 예산이 허용한다면 GPU 업그레이드를 고려하시기 바랍니다. RTX 4090 (24GB) 한 장이면 32B급 고품질 모델을 충분히 실행할 수 있습니다.

OpenClaw는 무료 오픈소스 개인 AI 어시스턴트로, WhatsApp, Telegram, Discord 등 다양한 플랫폼을 지원합니다