클라우드 AI 모델은 편리하지만 호출할 때마다 비용이 발생하고, 데이터를 외부 서버에 전송해야 합니다. 프라이버시에 대한 요구가 높거나, 무료로 AI 어시스턴트를 운영하고 싶다면, Ollama를 통한 로컬 오픈소스 모델 실행이 탁월한 선택입니다. OpenClaw의 셀프 호스팅 AI 어시스턴트는 Ollama를 네이티브로 지원하며, 설정 과정도 매우 간단합니다.
Ollama 소개
Ollama는 로컬 대규모 언어 모델 실행 도구로, 모델의 다운로드, 관리, 추론을 간결한 CLI와 API 서비스로 제공합니다. Meta의 Llama 시리즈, Alibaba의 Qwen 시리즈, Google의 Gemma 시리즈 등 다양한 오픈소스 모델을 지원하며, 완전 무료입니다.
1단계: Ollama 설치
운영체제에 맞는 설치 방법을 선택합니다.
Linux (권장):
curl -fsSL https://ollama.com/install.sh | sh
macOS:
ollama.com에서 설치 파일을 다운로드하거나, Homebrew로 설치합니다:
brew install ollama
Windows:
ollama.com에서 Windows 설치 프로그램을 다운로드하여 실행합니다.
설치가 완료되면 정상 설치를 확인합니다:
ollama --version
2단계: AI 모델 다운로드
Ollama의 pull 명령으로 모델을 다운로드합니다. 추천하는 모델 몇 가지를 소개합니다:
Llama 3.1 8B (범용 영어 모델, 입문 추천):
ollama pull llama3.1
Qwen2.5 7B (중국어 능력이 뛰어남, 중국어 사용자 추천):
ollama pull qwen2.5
Gemma 2 9B (Google 제공, 균형 잡힌 성능):
ollama pull gemma2
여러 모델을 동시에 다운로드하고 OpenClaw에서 언제든 전환하며 사용할 수 있습니다. 다운로드된 모델 목록을 확인합니다:
ollama list
모델 다운로드가 완료된 후, 정상 동작을 수동으로 테스트합니다:
ollama run qwen2.5 "안녕하세요, 자기소개를 해주세요"
모델이 정상적으로 답변을 반환하면, Ollama가 준비된 것입니다.
3단계: Ollama 서비스 실행 확인
Ollama는 백그라운드에서 서비스 형태로 실행되며, 기본적으로 http://localhost:11434에서 리스닝합니다. 서비스 상태를 확인합니다:
curl http://localhost:11434/api/tags
모델 목록이 JSON 형태로 반환되면 서비스가 실행 중입니다. Linux에서는 Ollama가 보통 systemd 서비스로 자동 시작됩니다:
sudo systemctl status ollama
sudo systemctl enable ollama # 부팅 시 자동 시작 설정
4단계: OpenClaw에서 Ollama 설정
OpenClaw 설정 파일을 엽니다:
nano ~/.config/openclaw/openclaw.json5
providers 섹션에 Ollama 설정을 추가합니다:
{
providers: {
ollama: {
enabled: true,
baseUrl: "http://localhost:11434",
// Ollama에는 실제 API Key가 필요하지 않지만, 필드를 비울 수 없습니다
apiKey: "ollama",
}
},
// 기본 사용 모델 설정
defaultModel: "ollama/qwen2.5",
}
여기서 apiKey 필드에는 아무 비어있지 않은 문자열을 입력하면 됩니다. Ollama 자체는 인증이 필요하지 않지만, OpenClaw의 설정 검증에서 해당 필드가 필요합니다.
설정을 저장한 후 게이트웨이를 재시작합니다:
openclaw gateway restart
5단계: 확인 및 테스트
진단 도구로 Ollama가 올바르게 연결되었는지 확인합니다:
openclaw doctor
출력에서 Ollama 관련 항목을 찾아 상태가 정상인지 확인합니다. 그런 다음 이미 설정해 둔 채팅 채널(Telegram, Discord 등)을 통해 메시지를 보내서 테스트합니다.
Dashboard에서 모델의 응답 상황도 확인할 수 있습니다:
openclaw dashboard
하드웨어 요구사항 참고
로컬에서 AI 모델을 실행하려면 일정 수준의 하드웨어가 필요합니다. 모델 크기별 권장 사양은 다음과 같습니다:
| 모델 규모 | 최소 메모리 | 권장 메모리 | 권장 GPU VRAM | 대표 모델 |
|---|---|---|---|---|
| 3B 파라미터 | 4GB | 8GB | 4GB | llama3.2:3b |
| 7-8B 파라미터 | 8GB | 16GB | 8GB | qwen2.5, llama3.1 |
| 13B 파라미터 | 16GB | 32GB | 12GB | llama2:13b |
| 70B 파라미터 | 64GB | 128GB | 48GB+ | llama3.1:70b |
참고사항:
- 독립 GPU 없이도 실행 가능합니다. Ollama가 자동으로 CPU 추론으로 전환되지만, 속도가 눈에 띄게 느려집니다
- NVIDIA GPU 사용자는 최신 CUDA 드라이버가 설치되어 있는지 확인하세요
- Apple Silicon (M1/M2/M3/M4) 기기는 Ollama를 잘 지원하며, 통합 메모리를 활용하여 효율적으로 실행됩니다
- VPS 배포의 경우, 7B 모델을 실행하려면 최소 8GB 메모리 인스턴스를 선택하는 것을 권장합니다
다중 모델 전환
OpenClaw은 설정에서 여러 모델을 등록하고 필요에 따라 전환하는 것을 지원합니다. 클라우드와 로컬 모델을 동시에 설정할 수 있습니다:
{
providers: {
anthropic: {
enabled: true,
apiKey: "sk-ant-xxxxx",
},
ollama: {
enabled: true,
baseUrl: "http://localhost:11434",
apiKey: "ollama",
}
},
defaultModel: "ollama/qwen2.5",
// 대화 중에 다른 모델로 전환 가능
}
이렇게 하면 평소에는 무료 로컬 모델을 사용하다가, 더 강력한 성능이 필요할 때 클라우드 모델로 전환할 수 있습니다.
마무리
Ollama를 통해 로컬 모델을 연결하면, 완전 무료이면서 데이터 유출 걱정 없이 AI 어시스턴트를 이용할 수 있습니다. 한국어 사용자에게는 Qwen2.5 시리즈 모델을 특히 추천합니다. 한국어 이해와 생성에서 우수한 성능을 보여줍니다. 더 많은 모델 선택과 고급 설정은 OpenClaw 공식 문서를 참고하시고, 문제가 발생하면 OpenClaw GitHub 저장소에서 해결 방법을 찾을 수 있습니다.