Ollama com OpenClaw: IA 100% Local e Privada
Rode modelos de IA no seu próprio hardware com o OpenClaw — sem custo de API e sem dados saindo do seu computador.
Introdução
O Ollama permite executar modelos de linguagem grandes (LLMs) localmente, diretamente no seu computador ou servidor. Para usuários do OpenClaw, isso significa três coisas: privacidade total (nenhum dado enviado para terceiros), custo zero de API e funcionamento offline.
Essa opção é especialmente relevante para quem lida com dados sensíveis — advogados processando casos confidenciais, médicos analisando prontuários, empresas com dados regulados pela LGPD ou qualquer situação onde enviar dados para APIs externas não é aceitável. Por isso, o Ollama costuma aparecer nos casos de uso do OpenClaw sempre que o tema é conformidade e sigilo.
A contrapartida é real: modelos locais historicamente tiveram qualidade inferior aos modelos de ponta na nuvem (Claude Opus, GPT-4), exigem hardware significativo para rodar bem e costumam ser mais lentos. Em 2026, porém, a distância encolheu bastante — modelos como Qwen2.5, Llama 3.1 e Mistral já cobrem com folga tarefas estruturadas, resumos, classificação e boa parte do trabalho com código. Para dados que não podem sair do seu ambiente, o trade-off faz sentido cada vez mais.
Antes de decidir, veja o comparativo completo de modelos para entender quando Ollama é a escolha certa em relação a Claude, GPT e Gemini.
Características Principais
Privacidade total: O modelo roda no seu hardware, os dados nunca saem do seu ambiente. Ideal para conformidade com LGPD, HIPAA ou outras regulações de proteção de dados.
Custo zero de API: Sem cobranças por token ou por chamada. O único custo é o hardware e a energia elétrica.
Funcionamento offline: Funciona sem conexão à internet após o download inicial do modelo. Útil para ambientes com restrições de rede ou viagens.
Variedade de modelos: O Ollama suporta dezenas de modelos — Llama, Qwen, Mistral, CodeLlama, Phi, Gemma e muitos outros. Você escolhe o modelo mais adequado para cada caso de uso.
Controle total: Você controla qual versão do modelo usa, como configura os parâmetros e onde os dados são armazenados.
Vantagens
- 100% privado — dados nunca saem do computador
- Sem custo de API
- Funciona offline após download
- Sem limites de uso (rate limits)
- Total controle sobre o modelo e os dados
Desvantagens
- Qualidade inferior aos modelos de ponta (Claude, GPT-4) em tarefas complexas
- Requer hardware potente (GPU dedicada recomendada)
- Mais lento que APIs na nuvem
- Modelos maiores exigem muito RAM/VRAM
- Configuração inicial mais complexa
Como Funciona
O Ollama roda um servidor local (por padrão em localhost:11434) que expõe uma API compatível com o formato da OpenAI. O OpenClaw se conecta a esse servidor local exatamente como se conecta a uma API remota, mas sem que nenhum dado saia do seu ambiente.
Instalação
Instalar o Ollama
# Linux e macOS
curl -fsSL https://ollama.ai/install.sh | sh
# Windows
# Baixe o instalador em ollama.ai/download
Baixar um Modelo
# Modelo básico (mais leve)
ollama pull llama3
# Modelo maior e melhor
ollama pull llama3.1:70b
# Modelo especializado em código
ollama pull codellama
# Raciocínio forte em hardware comum (recomendado para começar)
ollama pull qwen2.5
# Código de alta qualidade
ollama pull qwen2.5-coder
# Modelo equilibrado (alternativa)
ollama pull mixtral
Verificar que Está Funcionando
# Listar modelos instalados
ollama list
# Testar o modelo
ollama run llama3 "Olá, tudo bem?"
# Verificar servidor
curl http://localhost:11434/api/tags
Configuração no OpenClaw
Configuração Básica
agents:
defaults:
model:
primary: "ollama/llama3"
Configuração Completa
# config.yaml
provider: ollama
ollama:
base_url: http://localhost:11434
model: llama3.1:70b
# Temperatura
temperature: 0.7
# Contexto (em tokens)
num_ctx: 8192
Multi-Modelo: Ollama para Dados Sensíveis
Use Ollama apenas para dados sensíveis, mantendo Claude para o restante:
models:
default: claude-3-5-sonnet # Uso geral
local: ollama/llama3.1 # Dados confidenciais
code: ollama/codellama # Código privado
"Use modelo local: analise esse contrato confidencial"
"Use modelo code: revise esse código com dados de produção"
Modelos Recomendados
| Modelo | RAM Mínima | Melhor Para |
|---|---|---|
| llama3 (8B) | 8GB | Uso geral básico, testes |
| llama3.1 (8B) | 8GB | Uso geral com melhor tool calling |
| llama3.1 (70B) | 40GB RAM ou 24GB VRAM | Melhor qualidade local |
| qwen2.5 (7B) | 8GB | Ótimo raciocínio e custo-benefício |
| qwen2.5-coder (7B) | 8GB | Código — alternativa forte ao CodeLlama |
| mixtral (8x7B) | 24GB | Bom equilíbrio qualidade/velocidade |
| codellama | 8GB | Código, programação |
| phi-3 | 4GB | Hardware muito limitado |
Recomendação para começar: qwen2.5 (7B) ou llama3.1:8b — ambos rodam em hardware comum (8GB de RAM), têm bom suporte a tool calling e qualidade adequada para tarefas básicas e intermediárias. Para código privado, qwen2.5-coder é a escolha atual mais forte.
Requisitos de Hardware
Mínimo (experiência limitada)
- 8GB RAM
- CPU moderna (i7/Ryzen 7 ou superior)
- SSD com 10GB livres por modelo
Recomendado (experiência satisfatória)
- 16GB RAM (32GB para modelos 70B)
- GPU NVIDIA com 8GB+ VRAM
- SSD rápido
Ideal (experiência próxima a APIs na nuvem)
- 32GB+ RAM
- GPU NVIDIA com 16-24GB VRAM (RTX 3090, RTX 4090, A100)
- Modelos 70B+ rodando inteiramente na GPU
Nota sobre GPUs: Sem GPU, os modelos rodam na CPU — funciona, mas é muito mais lento. Com GPU NVIDIA (CUDA), a velocidade melhora dramaticamente. GPUs AMD funcionam com suporte experimental.
Casos de Uso Ideais
Dados de saúde (médicos, clínicas): Prontuários, diagnósticos e informações de pacientes nunca devem sair do ambiente controlado. Com Ollama, você mantém conformidade com o sigilo médico e com a LGPD para dados de saúde.
Dados jurídicos (advogados, escritórios): Estratégias de caso, documentos confidenciais e informações de clientes ficam no seu servidor. Sem risco de violação do sigilo profissional por terceiros.
Propriedade intelectual (empresas de tecnologia): Código fonte, algoritmos proprietários e segredos industriais não precisam ser enviados para APIs externas para análise.
Ambientes sem internet: Locais com restrições de rede, data centers isolados ou situações de contingência onde a internet não está disponível.
Limitações para Uso com OpenClaw
Tool calling: Modelos locais têm suporte variável a tool calling. O Llama 3.1 e o Qwen2.5 têm suporte razoável, mas podem ser menos confiáveis que Claude ou GPT-4 em workflows com muitas ferramentas encadeadas.
Contexto: Modelos locais tipicamente têm contexto menor (4K-32K tokens por padrão, configurável). Para documentos muito longos, você pode precisar fragmentar o conteúdo.
Velocidade: Mesmo com GPU, modelos 70B são mais lentos que APIs na nuvem. Para automações que precisam de resposta rápida, isso pode ser um limitador.
Qualidade: Para tarefas criativas, análise complexa ou decisões estratégicas, a diferença de qualidade em relação a Claude Opus ou GPT-4 ainda é perceptível. Para tarefas estruturadas e bem definidas, a diferença é menor.
FAQ
O Ollama funciona em Windows?
Sim. O Ollama tem instalador para Windows disponível em ollama.ai/download. O suporte a GPU (CUDA) também funciona no Windows.
Quais modelos têm melhor tool calling local?
Llama 3.1 (especialmente o 70B), Qwen2.5 e Mistral/Mixtral têm o melhor suporte a tool calling entre os modelos locais disponíveis. Para use cases críticos, teste antes de adotar em produção.
Posso usar Ollama em um servidor da empresa?
Sim. Instale o Ollama no servidor, configure para aceitar conexões da rede local e aponte o OpenClaw para o endereço do servidor em vez de localhost. Isso permite que múltiplos usuários compartilhem o modelo.
O Ollama funciona em Mac com chip Apple Silicon?
Sim, e com ótima performance. Os chips M1, M2 e M3 Pro/Max têm memória unificada que permite rodar modelos grandes de forma eficiente sem GPU separada. Um Mac com 16GB de RAM unificada roda o Llama 3.1 8B e o Qwen2.5 7B com velocidade satisfatória.
Como atualizar um modelo para a versão mais recente?
ollama pull llama3.1 # Baixa a versão mais recente
ollama rm llama3.1:old # Remove versão antiga se necessário
Usar Ollama já garante conformidade com a LGPD?
Usar Ollama elimina o risco de exposição de dados a APIs externas, mas a conformidade com LGPD depende de múltiplos fatores além disso: controles de acesso internos, políticas de retenção, base legal para o tratamento, etc. Leia o guia completo de LGPD para uma avaliação completa.
O Ollama é realmente grátis? Tem algum custo escondido?
Sim, o Ollama é open source e gratuito — não há custo de licença nem de API. Os únicos custos são o hardware para rodar os modelos (sobretudo RAM e, idealmente, uma GPU) e o consumo de energia. Não existe limite de uso nem cobrança por token.
Próximos Passos
- Comparativo de modelos — Compare com Claude, GPT e Gemini
- Claude (Anthropic) — Melhor qualidade geral para a nuvem
- Casos de uso — Veja onde IA local brilha na prática
- LGPD e conformidade — Uso responsável de dados
- Boas práticas de segurança — Segurança além do modelo
- Guia de instalação — Configure o OpenClaw completo
- Guias e tutoriais — Aprofunde no OpenClaw