VPS também roda IA? Como instalar Ollama + DeepSeek em máquinas modestas

Q: Qual é o mínimo de RAM necessário para rodar IA em uma VPS modesta?

O limite mínimo de RAM deve ser maior que a soma do tamanho do modelo quantizado + janela de contexto (Context Window) + consumo base do sistema. Para o DeepSeek 1.3B (4-bit, ~776 MB), somando o uso do Linux e a memória dinâmica de inferência, 2 GB de RAM é o limite absoluto para um funcionamento prático. Em máquinas de 1 GB, o modelo transbordará para o Swap no disco, travando o I/O do sistema e tornando-o inutilizável.

Q: Como liberar o acesso remoto à API do Ollama com segurança?

Por padrão, o Ollama escuta apenas em 127.0.0.1:11434 por segurança. Expor diretamente em 0.0.0.0 é um erro grave que deixa seu servidor vulnerável. A arquitetura correta segue o Princípio do Menor Privilégio (Principle of Least Privilege): primeiro, bloqueie IPs não autorizados no firewall (ufw ou iptables); segundo, mesmo que a requisição passe pelo firewall, exija autenticação na camada de aplicação via Nginx (usando Basic Auth ou validação de API Key). Essa abordagem em camadas aplica o conceito de "confiança zero" a serviços de IA privados.

Resumo: No comércio eletrônico e em sites corporativos que dependem de processamento automatizado de dados, o uso contínuo de APIs externas de IA enfrenta desafios rigorosos de privacidade e conformidade. Hospedar um modelo de linguagem grande (LLM) diretamente em uma VPS Linux é um passo essencial para garantir a governança de dados e manter informações sensíveis sob seu controle. Neste guia, explicamos como usar o framework Ollama para rodar o modelo leve DeepSeek 1.3B em um plano legado com apenas 2 GB de RAM. Mesmo com as limitações de I/O de servidores econômicos, ao evitar o uso excessivo de memória virtual e configurar corretamente o firewall, você cria um assistente de IA privado, seguro e de custo extremamente baixo.

Conteúdo Ocultar

1 I. Adeus à ansiedade com APIs na nuvem: o valor real de uma IA privada

2 II. Análise técnica: os limites de hardware para rodar IA em VPS modestas

2.1 1. Superando o limite de RAM: Quantização de Modelos (Model Quantization)

2.2 2. Transferência de processamento: a realidade da Inferência via CPU (CPU Inference)

2.3 3. Armadilha crítica: Troca de Memória (Memory Thrashing) e o mito do Swap

3 III. Guia prático: Instalação completa do Ollama + DeepSeek

3.1 1. Proteção contra OOM: Configurando Swap e parâmetros do kernel

3.2 2. Instalação rápida do motor Ollama

3.3 3. Baixando e executando o modelo DeepSeek

4 IV. Avançado: Solução de problemas e dicas práticas

4.1 💡 Dicas práticas e alertas da vps1111:

5 V. Perguntas Frequentes (FAQ)

5.1 1. Qual é o mínimo de RAM necessário para rodar IA em uma VPS modesta?

5.2 2. Como otimizar a velocidade lenta da inferência via CPU?

5.3 3. Como liberar o acesso remoto à API do Ollama com segurança?

I. Adeus à ansiedade com APIs na nuvem: o valor real de uma IA privada

Equipes de e-commerce e coleta de dados usam IA diariamente para responder e-mails, criar descrições de produtos e organizar informações. Porém, enviar dados confidenciais para APIs de terceiros pode violar regulamentações como a LGPD/GDPR e ainda permitir que essas empresas usem suas informações para treinar seus próprios modelos.

Por isso, configurar um modelo privado no seu próprio servidor Linux tornou-se uma necessidade real para proteger segredos comerciais. É importante ser transparente: uma VPS comum não oferece isolamento físico absoluto (o provedor ainda gerencia o hipervisor), mas ela elimina o envio de dados para empresas de IA públicas, criando um equilíbrio excelente entre custo e conformidade.

Muitos acreditam que rodar IA exige servidores caros com GPUs dedicadas. Graças ao ecossistema open-source atual, até uma VPS econômica consegue processar tarefas de inferência leve com tranquilidade.

II. Análise técnica: os limites de hardware para rodar IA em VPS modestas

Para entender como um servidor com apenas 2 GB de RAM consegue processar modelos com bilhões de parâmetros, precisamos analisar a lógica por trás da otimização de recursos.

1. Superando o limite de RAM: Quantização de Modelos (Model Quantization)

Modelos nativos usam precisão FP16, o que exigiria quase 3 GB de RAM para um modelo de 1,3 bilhão de parâmetros (1.3B) — inviável para máquinas modestas. O Ollama resolve isso com a Quantização de Modelos (Model Quantization) no formato GGUF, comprimindo os dados para 4 bits. Segundo a documentação oficial, a versão q4_0 do deepseek-coder:1.3b-instruct ocupa apenas cerca de 776 MB, removendo completamente a barreira de entrada de hardware.

2. Transferência de processamento: a realidade da Inferência via CPU (CPU Inference)

A maioria das VPS econômicas não possui GPU. Felizmente, o motor llama.cpp do Ollama é altamente otimizado para conjuntos de instruções modernos de CPU (como AVX2 e AVX-512). Isso permite que a Inferência via CPU (CPU Inference) funcione via multithreading. É preciso ser realista: a velocidade fica entre 2 a 5 tokens/s, longe da fluidez de uma GPU. No entanto, para processos em segundo plano (como tradução em lote ou formatação de JSON), um atraso de alguns segundos é perfeitamente aceitável.

3. Armadilha crítica: Troca de Memória (Memory Thrashing) e o mito do Swap

Muitos tutoriais sugerem “aumentar o Swap se faltar RAM”, criando 4 GB ou 8 GB de memória virtual em uma máquina de 2 GB. Isso é um erro grave. A inferência de IA exige leitura constante de dados. Se o modelo for forçado para o Swap, o I/O do disco da VPS entrará em colapso, causando Troca de Memória (Memory Thrashing). O load average disparará, o SSH travará e a geração de texto parará. O Swap deve servir apenas como “airbag” contra Out of Memory (OOM), nunca como substituto da RAM. O modelo e seu contexto precisam caber inteiramente na memória física.

III. Guia prático: Instalação completa do Ollama + DeepSeek

A seguir, vamos configurar um serviço completo de IA privada do zero em uma VPS Linux padrão (Debian 12 ou Ubuntu 24.04) com apenas 2 GB de RAM.

1. Proteção contra OOM: Configurando Swap e parâmetros do kernel

Vamos criar apenas 2 GB de Swap como amortecedor, evitando que picos de uso no início desconectem seu SSH. Além disso, ajustar o vm.swappiness no /etc/sysctl.conf para 1 ou 10 instrui o kernel a priorizar a RAM física, usando o Swap apenas em último caso e evitando completamente a troca de memória.

# Cria um arquivo de troca de 2GB como amortecedor de segurança
sudo fallocate -l 2G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# Adiciona ao fstab para montagem automática na inicialização
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

# Otimiza o parâmetro swappiness para reduzir o uso do Swap
echo 'vm.swappiness=10' | sudo tee -a /etc/sysctl.conf
sudo sysctl -p

2. Instalação rápida do motor Ollama

O Ollama é o gerenciador de processos LLM mais acessível para iniciantes no Linux. Ele empacota todas as variáveis de ambiente e compilações C++ necessárias, eliminando a necessidade de configurar dependências manualmente.

# Executa o script oficial para instalação em um passo
curl -fsSL https://ollama.com/install.sh | sh

# Verifica o status do serviço Ollama
systemctl status ollama

3. Baixando e executando o modelo DeepSeek

Considerando o limite de RAM, vamos baixar a versão leve e otimizada para lógica e tarefas estruturadas: deepseek-coder:1.3b-instruct.

Processo real de execução do comando ollama run no terminal Linux, baixando e carregando automaticamente o modelo de linguagem DeepSeek 1.3B quantizado.

# A primeira execução baixa automaticamente o arquivo do modelo GGUF (~776MB)
ollama run deepseek-coder:1.3b-instruct

Após abrir o terminal interativo, basta digitar suas perguntas. Em uma VPS de 2 GB e 2 núcleos, assim que o modelo carregar na RAM, ele começará a gerar respostas de forma estável.

Captura de tela da interação com o modelo DeepSeek privado via inferência de CPU em uma VPS modesta, após a instalação bem-sucedida do Ollama.

IV. Avançado: Solução de problemas e dicas práticas

Rodar IA em ambientes com recursos limitados exige atenção a detalhes de administração de sistemas. Antes de liberar a API para a internet, recomendamos fortemente que leia nosso Guia Definitivo de Segurança para VPS para bloquear ataques de força bruta na porta 22 e proteger seu servidor contra varreduras maliciosas.

💡 Dicas práticas e alertas da vps1111:

Hardware e rede: Para máquinas que processam tarefas em segundo plano, a latência de rede não é crítica. Porém, como carregar o modelo (quase 1 GB do disco para a RAM) depende muito da velocidade do armazenamento, evite instâncias antigas com HDD. Prefira máquinas com NVMe SSD para reduzir o tempo de inicialização.
Risco principal (evite armadilhas): O maior problema de VPS baratas são as restrições severas de CPU (comuns em provedores duvidosos). O Ollama pode usar 100% da CPU durante a inferência. Muitos provedores com overselling agressivo suspendem a conta por “uso excessivo de CPU” e demoram para responder aos tickets. Use ferramentas como cpulimit para limitar o processo do Ollama a 80%, trocando um pouco de velocidade por estabilidade garantida.
Recomendação: ⭐⭐⭐⭐ (4 estrelas. Excelente equilíbrio entre governança de dados e custo baixo. Perde um ponto devido à velocidade limitada da CPU e à necessidade de um provedor com políticas flexíveis de uso de processador.)

V. Perguntas Frequentes (FAQ)

1. Qual é o mínimo de RAM necessário para rodar IA em uma VPS modesta?

O limite mínimo de RAM deve ser maior que a soma do tamanho do modelo quantizado + janela de contexto (Context Window) + consumo base do sistema. Para o DeepSeek 1.3B (4-bit, ~776 MB), somando o uso do Linux e a memória dinâmica de inferência, 2 GB de RAM é o limite absoluto para um funcionamento prático. Em máquinas de 1 GB, o modelo transbordará para o Swap no disco, travando o I/O do sistema e tornando-o inutilizável.

2. Como otimizar a velocidade lenta da inferência via CPU?

Sem uma GPU dedicada, a otimização depende de dois passos: primeiro, use systemctl para parar serviços desnecessários em segundo plano (como monitores ou logs pesados) e liberar ciclos de CPU e RAM. Segundo, ao chamar a API, reduza o tamanho do contexto via parâmetro num_ctx, diminuindo a carga de cálculo a cada geração.

3. Como liberar o acesso remoto à API do Ollama com segurança?

Por padrão, o Ollama escuta apenas em 127.0.0.1:11434 por segurança. Expor diretamente em 0.0.0.0 é um erro grave que deixa seu servidor vulnerável. A arquitetura correta segue o Princípio do Menor Privilégio (Principle of Least Privilege): primeiro, bloqueie IPs não autorizados no firewall (ufw ou iptables); segundo, mesmo que a requisição passe pelo firewall, exija autenticação na camada de aplicação via Nginx (usando Basic Auth ou validação de API Key). Essa abordagem em camadas aplica o conceito de “confiança zero” a serviços de IA privados.