¿Ollama funciona sin GPU?

Sí. Ollama puede ejecutar modelos usando solo CPU, aunque será más lento. Con 8 GB de RAM y CPU moderna, modelos de 7B funcionan a velocidad aceptable.

¿Ollama es compatible con la API de OpenAI?

Sí. Ollama expone una API REST en localhost:11434 que es compatible con el formato de OpenAI. Puedes usar cualquier cliente de OpenAI cambiando solo la URL base.

¿Cuánto espacio en disco necesita Ollama?

Depende del modelo. Modelos de 7B ocupan ~4-5 GB. Modelos de 70B cuantizados pueden ocupar 40+ GB. Ollama en sí ocupa muy poco espacio.

¿Puedo usar Ollama en un servidor remoto?

Sí. Puedes instalar Ollama en un VPS o servidor dedicado y conectarte a él remotamente configurando la variable OLLAMA_HOST para que escuche en la IP pública.

🔓IA Open SourceIntermedio

Ollama: Guía Completa para Instalar y Usar LLMs Locales

Ollama es la forma más fácil de ejecutar LLMs en tu ordenador. Esta guía cubre todo: instalación, modelos, integración con agentes y optimización.

2026-02-1914 min lectura

Qué es Ollama y por qué es importante

Ollama es una herramienta de línea de comandos que simplifica la descarga, gestión y ejecución de modelos de lenguaje en tu ordenador local. Piensa en él como un "Docker para LLMs": un solo comando para descargar y ejecutar cualquier modelo.

¿Por qué importa? Porque antes de Ollama, ejecutar un LLM local requería compilar código C++, configurar dependencias, descargar pesos manualmente y rezar para que todo funcionara. Con Ollama, es literalmente:

ollama run llama3.3

Eso es todo. Un comando. El modelo se descarga, se optimiza para tu hardware y empieza a funcionar.

Instalación paso a paso: Mac, Linux y Windows

Mac:

# Descarga e instala desde la web
curl -fsSL https://ollama.com/install.sh | sh

# O con Homebrew
brew install ollama

Linux (Ubuntu/Debian):

curl -fsSL https://ollama.com/install.sh | sh

Windows:

Descarga el instalador desde ollama.com/download. Ejecuta el .exe y sigue el asistente. Compatible con Windows 10 y 11.

Verifica la instalación:

ollama --version
# Debería mostrar: ollama version 0.x.x

Después de instalar, descarga tu primer modelo:

ollama pull llama3.3
ollama run llama3.3

Modelos disponibles: cuál elegir según tu hardware

ModeloTamañoRAM necesariaMejor paraPhi-3 Mini (3.8B)2.3 GB4 GBOrdenadores antiguos, tareas básicasLlama 3.2 7B4.7 GB8 GBUso general, buen equilibrioMistral 7B4.1 GB8 GBConversación, instruccionesCodeLlama 13B7.4 GB16 GBProgramaciónLlama 3.3 70B (Q4)40 GB48 GBMáxima calidadDeepSeek Coder V28.9 GB16 GBCódigo y razonamiento Recomendación: empieza con llama3.2 (7B). Es el mejor modelo general para 8 GB de RAM.

Para listar todos los modelos disponibles:

ollama list    # Modelos descargados
ollama search  # Buscar en el registro

Integración con agentes: OpenClaw, ZeroClaw y más

Ollama expone una API REST compatible con OpenAI en localhost:11434. Esto significa que cualquier herramienta que soporte la API de OpenAI puede usarse con Ollama cambiando solo la URL base.

Conectar con OpenClaw:

# config.yaml
model:
  provider: ollama
  name: llama3.3
  base_url: http://localhost:11434
  temperature: 0.7

Conectar con cualquier cliente OpenAI:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="llama3.3",
    messages=[{"role": "user", "content": "Hola"}]
)

Esta compatibilidad hace que migrar de OpenAI a Ollama sea trivial: cambias la URL base y listo.

Tips de optimización para mejor rendimiento

1. Usa cuantización adecuada: Los modelos vienen en diferentes niveles de cuantización (Q4, Q5, Q8, FP16). Q4 usa menos RAM y es más rápido, con una pérdida mínima de calidad.

# Descargar versión Q4 (más ligera)
ollama pull llama3.3:q4_0

2. Configura GPU correctamente: Ollama detecta GPUs NVIDIA automáticamente. Para AMD, necesitas ROCm instalado. Para Apple Silicon, usa Metal (activado por defecto).

3. Ajusta el contexto: Reducir la ventana de contexto reduce el uso de memoria:

ollama run llama3.3 --ctx-size 4096

4. Mantén el modelo en memoria: Ollama descarga el modelo de RAM tras 5 minutos de inactividad. Para mantenerlo cargado:

OLLAMA_KEEP_ALIVE=-1 ollama serve

5. Múltiples modelos simultáneos: Ollama soporta ejecutar varios modelos a la vez si tienes suficiente RAM. Perfecto para model routing local.

Preguntas Frecuentes

ollamallm-localtutorialinstalacionmodelos

Ollama: Guía Completa para Instalar y Usar LLMs Locales

Qué es Ollama y por qué es importante

Instalación paso a paso: Mac, Linux y Windows

Modelos disponibles: cuál elegir según tu hardware

Integración con agentes: OpenClaw, ZeroClaw y más

Tips de optimización para mejor rendimiento

Preguntas Frecuentes

Artículos Relacionados

Tu Propia IA Privada en 2026: Guía sin Programación

Cómo Montar un Agente de IA en Raspberry Pi: Tutorial Completo

🦞 El briefing semanal de IA open source