¿Qué es Prompt Caching? Ahorra Dinero en tus LLMs
Prompt caching permite que el LLM reutilice cálculos previos cuando envías prompts con prefijos repetidos. Resultado: menos coste y menor latencia.
Qué es prompt caching (explicado sin jerga)
Prompt caching es una técnica donde el proveedor del LLM guarda en memoria los cálculos realizados para la parte del prompt que ya ha procesado antes. Si envías un prompt largo donde el 80% es idéntico al anterior (por ejemplo, el mismo system prompt), el LLM no recalcula esa parte — usa el caché.
Analogía simple: imagina que cada vez que pides una pizza, el restaurante preparara la masa desde cero. Prompt caching es como tener masas pre-hechas: solo necesitas añadir los ingredientes nuevos (tu mensaje), no repetir todo el proceso.
Resultado práctico:
- Menor coste: los tokens cacheados cuestan entre un 50% y un 90% menos- Menor latencia: la respuesta llega más rápido porque se procesa menos
Cómo funciona a alto nivel
Cuando envías un prompt al LLM, el modelo lo procesa token por token. Prompt caching funciona así:
1. Primera petición: El LLM procesa todo el prompt completo (system prompt + historial + mensaje nuevo). Almacena en caché los cálculos del prefijo estático.
2. Peticiones siguientes: Si el prefijo del prompt es idéntico al de una petición anterior, el LLM salta directamente al punto donde el prompt difiere y solo procesa lo nuevo.
Ejemplo concreto:
# Petición 1 (todo se procesa desde cero)
[System prompt: 500 tokens] + [Mensaje: "¿Qué es Python?"]
# Petición 2 (500 tokens cacheados, solo procesa el mensaje nuevo)
[System prompt: 500 tokens ← CACHEADO] + [Mensaje: "¿Y JavaScript?"]
Los 500 tokens del system prompt se procesan una sola vez y se reutilizan en todas las peticiones siguientes.
Providers que soportan prompt caching
ProviderSoporteDescuento tokens cacheadosTTL del cachéAnthropic (Claude)✅90% menos5 minutosOpenAI (GPT)✅50% menos~5-10 minGoogle (Gemini)✅75% menosConfigurableDeepSeek✅~90% menosVariable Nota importante: el caché tiene un TTL (Time To Live). Si pasan más de 5 minutos sin una petición con el mismo prefijo, el caché se invalida y la siguiente petición se procesa completa.
Para agentes con tráfico constante, el caché se mantiene activo casi siempre. Para agentes con uso esporádico, el beneficio es menor.
Cómo aprovechar prompt caching en tu agente
1. Pon el contenido estático al inicio del prompt: System prompt, instrucciones, contexto fijo — todo al principio. El contenido dinámico (mensaje del usuario) al final.
2. Mantén el system prompt idéntico: Cualquier cambio, incluso un espacio, invalida el caché. No generes system prompts dinámicos si quieres beneficiarte del caching.
3. Usa prefijos largos: Cuanto más largo sea el prefijo cacheado, mayor el ahorro. Un system prompt de 2.000 tokens se beneficia mucho más que uno de 200.
4. Mantén tráfico constante: El caché expira. Si tu agente tiene tráfico irregular, considera enviar peticiones "heartbeat" para mantener el caché activo (aunque esto tiene un coste propio que debes calcular).
Para una guía práctica sobre cómo implementar prompt caching con agentes IA, lee nuestro tutorial sobre prompt caching y ahorro en LLMs.
Preguntas Frecuentes
Artículos Relacionados
Prompt Caching: Cómo Funciona y Cuánto Puedes Ahorrar en tu LLM
El prompt caching puede reducir tu factura de LLM un 90%. Pero casi nadie lo entiende bien. Te explico cómo funciona internamente y cuánto puedes ahorrar realmente.
Cómo Reducir el Coste de Tokens de tu Agente de IA en un 80%
Tu agente de IA está quemando dinero en tokens innecesarios. Este tutorial te muestra cómo reducir el coste un 80% con 5 técnicas que puedes aplicar hoy.
🦞 El briefing semanal de IA open source
Cada lunes: un tutorial nuevo, las comparativas que importan y los trucos que solo compartimos por email. Ya somos +500 técnicos en la colonia.