¿El prompt caching afecta la calidad de las respuestas?

No. El modelo recibe exactamente la misma información. Solo cambia cómo el provider procesa internamente los tokens repetidos. El output es idéntico.

¿Necesito cambiar mi código para usar prompt caching?

Con Anthropic: no, es automático. Con OpenAI: no, es automático para prefijos. Con Google Gemini: sí, necesitas usar la Context Caching API explícitamente.

¿Qué pasa si mi system prompt tiene menos de 1.024 tokens?

En Anthropic, no se cachea automáticamente (mínimo 1.024 tokens para caching). Puedes extender tu system prompt con instrucciones útiles adicionales para alcanzar el mínimo.

¿El prompt caching funciona con streaming?

Sí, en todos los providers que lo soportan. El caching se aplica al procesamiento de input, no al output.

📚TutorialesIntermedio

Prompt Caching: Cómo Funciona y Cuánto Puedes Ahorrar en tu LLM

El prompt caching puede reducir tu factura de LLM un 90%. Pero casi nadie lo entiende bien. Te explico cómo funciona internamente y cuánto puedes ahorrar realmente.

2026-02-1911 min lectura

¿Qué es el prompt caching?

Prompt caching es una técnica donde el proveedor de LLM almacena internamente partes de tu prompt que se repiten entre requests, evitando reprocesarlas cada vez.

Piensa en cómo funciona un navegador web: la primera vez que visitas un sitio, descarga todo (HTML, CSS, imágenes). Las siguientes veces, reutiliza lo que ya tiene en caché. Solo descarga lo que cambió.

El prompt caching hace lo mismo con los tokens. Tu system prompt de 500 tokens se "cachea" en la primera request. Las siguientes 99 requests no necesitan reprocesar esos 500 tokens — el modelo ya los tiene "en memoria".

El resultado: pagas 500 tokens una vez y ~50 tokens (o menos) las siguientes veces por el mismo contenido.

Cómo funciona internamente

Sin entrar en detalles de GPU que no necesitas, el proceso simplificado es:

1. Primera request (cache miss):

[System prompt: 500 tokens] + [User message: 100 tokens]
→ Total procesado: 600 tokens
→ Coste: 600 tokens × precio normal
→ El provider cachea los 500 tokens del system prompt

2. Siguientes requests (cache hit):

[System prompt: 500 tokens CACHEADOS] + [User message: 120 tokens]
→ Total procesado: 120 tokens (nuevos) + 500 tokens (cacheados)
→ Coste: 120 tokens × precio normal + 500 tokens × precio reducido (10-50% del normal)

¿Por qué no es gratis? Porque el modelo aún necesita "leer" los tokens cacheados para generar una respuesta coherente. Pero la lectura de caché es 2-10x más barata que el procesamiento completo.

TTL (Time To Live): El caché expira. En Anthropic, dura ~5 minutos de inactividad. En OpenAI, ~1 hora. Después, la siguiente request es un cache miss completo.

Providers que lo soportan en 2026

ProviderCachingDescuentoTTLMínimo tokens AnthropicAutomático90% (input cacheado)~5 min1.024 tokens OpenAIAutomático (prefijos)50%~~1 horaVariable **Google (Gemini)**Manual (Context Caching API)VariableConfigurable32.768 tokens GroqNo soportado——— Together AIParcial~~30%VariableVariable

Anthropic es el ganador claro: 90% de descuento, automático (no necesitas hacer nada especial), y funciona con todos los modelos Claude.

Configuración práctica

Con Anthropic (automático):

No necesitas configurar nada específico. Si tu system prompt tiene >1.024 tokens, Anthropic lo cachea automáticamente. Para maximizar el cache hit rate:

# Mantén el system prompt estático (no incluyas timestamps dinámicos)
# Agrupa las instrucciones al inicio del prompt
# Pon el contenido variable (historial, contexto) al final

system_prompt = """
[INSTRUCCIONES ESTÁTICAS - se cachean]
Eres un asistente personal. Respondes en español.
Estilo directo, sin relleno.
...más instrucciones fijas...
"""

# El historial va DESPUÉS del system prompt
messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": "último mensaje del usuario"}
]

Con OpenAI:

Similar pero con 50% de descuento en lugar de 90%. El caching de prefijos funciona si los primeros N tokens del prompt son idénticos entre requests.

Error común: Incluir un timestamp o ID de sesión al inicio del system prompt. Esto invalida el caché porque los primeros tokens cambian.

Cálculo de ahorro real con ejemplos numéricos

Vamos a calcular el ahorro para tres escenarios reales:

Escenario 1: Asistente personal (50 mensajes/día, Anthropic Claude Haiku)

Sin cachingCon caching System prompt500 tokens × 50 = 25.000500 + (49 × 50) = 2.950 User messages200 × 50 = 10.000200 × 50 = 10.000 Total input/día35.000 tokens12.950 tokens Coste/mes ($0.25/1M)$0.26$0.10

Escenario 2: Agente de soporte (500 mensajes/día, Claude Sonnet)

Sin cachingCon caching System prompt2.000 × 500 = 1.000.0002.000 + (499 × 200) = 101.800 Coste/mes ($3/1M)$90$9.16

Escenario 3: Pipeline multi-agente (200 calls/día, Claude Opus)

Sin cachingCon caching System prompt3.000 × 200 = 600.0003.000 + (199 × 300) = 62.700 Coste/mes ($15/1M)$270$28.22

Resumen: El prompt caching ahorra entre 60% y 90% del coste de input tokens. Cuanto más grande el system prompt y más requests hagas, mayor el ahorro.

Preguntas Frecuentes

prompt-cachingllmahorrotokensoptimización

Prompt Caching: Cómo Funciona y Cuánto Puedes Ahorrar en tu LLM

¿Qué es el prompt caching?

Cómo funciona internamente

Providers que lo soportan en 2026

Configuración práctica

Cálculo de ahorro real con ejemplos numéricos

Preguntas Frecuentes

Artículos Relacionados

Cómo Reducir el Coste de Tokens de tu Agente de IA en un 80%

GLM-4 Flash: El LLM Más Barato con Buena Calidad en 2026

🦞 El briefing semanal de IA open source