¿Prompt caching funciona automáticamente?

En la mayoría de providers (Anthropic, OpenAI), sí. No necesitas activar nada especial. El caché se aplica automáticamente cuando detecta prefijos repetidos.

¿Cuánto dinero ahorra prompt caching?

Depende de cuánto del prompt es estático. Con un system prompt largo y tráfico constante, puedes ahorrar entre un 50% y un 90% en los tokens de input.

¿Prompt caching afecta la calidad de las respuestas?

No. El resultado es matemáticamente idéntico. El caching solo optimiza el procesamiento interno, no cambia la salida del modelo.

📖GlosarioPrincipiante

¿Qué es Prompt Caching? Ahorra Dinero en tus LLMs

Prompt caching permite que el LLM reutilice cálculos previos cuando envías prompts con prefijos repetidos. Resultado: menos coste y menor latencia.

2026-02-197 min lectura

Qué es prompt caching (explicado sin jerga)

Prompt caching es una técnica donde el proveedor del LLM guarda en memoria los cálculos realizados para la parte del prompt que ya ha procesado antes. Si envías un prompt largo donde el 80% es idéntico al anterior (por ejemplo, el mismo system prompt), el LLM no recalcula esa parte — usa el caché.

Analogía simple: imagina que cada vez que pides una pizza, el restaurante preparara la masa desde cero. Prompt caching es como tener masas pre-hechas: solo necesitas añadir los ingredientes nuevos (tu mensaje), no repetir todo el proceso.

Resultado práctico:

Menor coste: los tokens cacheados cuestan entre un 50% y un 90% menos- Menor latencia: la respuesta llega más rápido porque se procesa menos

Cómo funciona a alto nivel

Cuando envías un prompt al LLM, el modelo lo procesa token por token. Prompt caching funciona así:

1. Primera petición: El LLM procesa todo el prompt completo (system prompt + historial + mensaje nuevo). Almacena en caché los cálculos del prefijo estático.

2. Peticiones siguientes: Si el prefijo del prompt es idéntico al de una petición anterior, el LLM salta directamente al punto donde el prompt difiere y solo procesa lo nuevo.

Ejemplo concreto:

# Petición 1 (todo se procesa desde cero)
[System prompt: 500 tokens] + [Mensaje: "¿Qué es Python?"]

# Petición 2 (500 tokens cacheados, solo procesa el mensaje nuevo)
[System prompt: 500 tokens ← CACHEADO] + [Mensaje: "¿Y JavaScript?"]

Los 500 tokens del system prompt se procesan una sola vez y se reutilizan en todas las peticiones siguientes.

Providers que soportan prompt caching

ProviderSoporteDescuento tokens cacheadosTTL del cachéAnthropic (Claude)✅90% menos5 minutosOpenAI (GPT)✅50% menos~5-10 minGoogle (Gemini)✅75% menosConfigurableDeepSeek✅~90% menosVariable Nota importante: el caché tiene un TTL (Time To Live). Si pasan más de 5 minutos sin una petición con el mismo prefijo, el caché se invalida y la siguiente petición se procesa completa.

Para agentes con tráfico constante, el caché se mantiene activo casi siempre. Para agentes con uso esporádico, el beneficio es menor.

Cómo aprovechar prompt caching en tu agente

1. Pon el contenido estático al inicio del prompt: System prompt, instrucciones, contexto fijo — todo al principio. El contenido dinámico (mensaje del usuario) al final.

2. Mantén el system prompt idéntico: Cualquier cambio, incluso un espacio, invalida el caché. No generes system prompts dinámicos si quieres beneficiarte del caching.

3. Usa prefijos largos: Cuanto más largo sea el prefijo cacheado, mayor el ahorro. Un system prompt de 2.000 tokens se beneficia mucho más que uno de 200.

4. Mantén tráfico constante: El caché expira. Si tu agente tiene tráfico irregular, considera enviar peticiones "heartbeat" para mantener el caché activo (aunque esto tiene un coste propio que debes calcular).

Para una guía práctica sobre cómo implementar prompt caching con agentes IA, lee nuestro tutorial sobre prompt caching y ahorro en LLMs.

Preguntas Frecuentes

prompt-cachingahorrolatenciaglosariollm

¿Qué es Prompt Caching? Ahorra Dinero en tus LLMs

Qué es prompt caching (explicado sin jerga)

Cómo funciona a alto nivel

Providers que soportan prompt caching

Cómo aprovechar prompt caching en tu agente

Preguntas Frecuentes

Artículos Relacionados

Prompt Caching: Cómo Funciona y Cuánto Puedes Ahorrar en tu LLM

Cómo Reducir el Coste de Tokens de tu Agente de IA en un 80%

🦞 El briefing semanal de IA open source