Prompt Caching: Cómo Funciona y Cuánto Puedes Ahorrar en tu LLM
El prompt caching puede reducir tu factura de LLM un 90%. Pero casi nadie lo entiende bien. Te explico cómo funciona internamente y cuánto puedes ahorrar realmente.
¿Qué es el prompt caching?
Prompt caching es una técnica donde el proveedor de LLM almacena internamente partes de tu prompt que se repiten entre requests, evitando reprocesarlas cada vez.
Piensa en cómo funciona un navegador web: la primera vez que visitas un sitio, descarga todo (HTML, CSS, imágenes). Las siguientes veces, reutiliza lo que ya tiene en caché. Solo descarga lo que cambió.
El prompt caching hace lo mismo con los tokens. Tu system prompt de 500 tokens se "cachea" en la primera request. Las siguientes 99 requests no necesitan reprocesar esos 500 tokens — el modelo ya los tiene "en memoria".
El resultado: pagas 500 tokens una vez y ~50 tokens (o menos) las siguientes veces por el mismo contenido.
Cómo funciona internamente
Sin entrar en detalles de GPU que no necesitas, el proceso simplificado es:
1. Primera request (cache miss):
[System prompt: 500 tokens] + [User message: 100 tokens]
→ Total procesado: 600 tokens
→ Coste: 600 tokens × precio normal
→ El provider cachea los 500 tokens del system prompt
2. Siguientes requests (cache hit):
[System prompt: 500 tokens CACHEADOS] + [User message: 120 tokens]
→ Total procesado: 120 tokens (nuevos) + 500 tokens (cacheados)
→ Coste: 120 tokens × precio normal + 500 tokens × precio reducido (10-50% del normal)
¿Por qué no es gratis? Porque el modelo aún necesita "leer" los tokens cacheados para generar una respuesta coherente. Pero la lectura de caché es 2-10x más barata que el procesamiento completo.
TTL (Time To Live): El caché expira. En Anthropic, dura ~5 minutos de inactividad. En OpenAI, ~1 hora. Después, la siguiente request es un cache miss completo.
Providers que lo soportan en 2026
ProviderCachingDescuentoTTLMínimo tokens
AnthropicAutomático90% (input cacheado)~5 min1.024 tokens
OpenAIAutomático (prefijos)50%1 horaVariable
**Google (Gemini)**Manual (Context Caching API)VariableConfigurable32.768 tokens
GroqNo soportado———
Together AIParcial30%VariableVariable
Anthropic es el ganador claro: 90% de descuento, automático (no necesitas hacer nada especial), y funciona con todos los modelos Claude.
Configuración práctica
Con Anthropic (automático):
No necesitas configurar nada específico. Si tu system prompt tiene >1.024 tokens, Anthropic lo cachea automáticamente. Para maximizar el cache hit rate:
# Mantén el system prompt estático (no incluyas timestamps dinámicos)
# Agrupa las instrucciones al inicio del prompt
# Pon el contenido variable (historial, contexto) al final
system_prompt = """
[INSTRUCCIONES ESTÁTICAS - se cachean]
Eres un asistente personal. Respondes en español.
Estilo directo, sin relleno.
...más instrucciones fijas...
"""
# El historial va DESPUÉS del system prompt
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": "último mensaje del usuario"}
]
Con OpenAI:
Similar pero con 50% de descuento en lugar de 90%. El caching de prefijos funciona si los primeros N tokens del prompt son idénticos entre requests.
Error común: Incluir un timestamp o ID de sesión al inicio del system prompt. Esto invalida el caché porque los primeros tokens cambian.
Cálculo de ahorro real con ejemplos numéricos
Vamos a calcular el ahorro para tres escenarios reales:
Escenario 1: Asistente personal (50 mensajes/día, Anthropic Claude Haiku)
Sin cachingCon caching System prompt500 tokens × 50 = 25.000500 + (49 × 50) = 2.950 User messages200 × 50 = 10.000200 × 50 = 10.000 Total input/día35.000 tokens12.950 tokens Coste/mes ($0.25/1M)$0.26$0.10
Escenario 2: Agente de soporte (500 mensajes/día, Claude Sonnet)
Sin cachingCon caching System prompt2.000 × 500 = 1.000.0002.000 + (499 × 200) = 101.800 Coste/mes ($3/1M)$90$9.16
Escenario 3: Pipeline multi-agente (200 calls/día, Claude Opus)
Sin cachingCon caching System prompt3.000 × 200 = 600.0003.000 + (199 × 300) = 62.700 Coste/mes ($15/1M)$270$28.22
Resumen: El prompt caching ahorra entre 60% y 90% del coste de input tokens. Cuanto más grande el system prompt y más requests hagas, mayor el ahorro.
Preguntas Frecuentes
Artículos Relacionados
Cómo Reducir el Coste de Tokens de tu Agente de IA en un 80%
Tu agente de IA está quemando dinero en tokens innecesarios. Este tutorial te muestra cómo reducir el coste un 80% con 5 técnicas que puedes aplicar hoy.
GLM-4 Flash: El LLM Más Barato con Buena Calidad en 2026
GLM-4 Flash es gratuito, competente y nadie habla de él. Review completa del modelo de Zhipu AI que está cambiando la ecuación de costes en IA.
🦞 El briefing semanal de IA open source
Cada lunes: un tutorial nuevo, las comparativas que importan y los trucos que solo compartimos por email. Ya somos +500 técnicos en la colonia.