📖GlosarioPrincipiante

    ¿Qué es Prompt Caching? Ahorra Dinero en tus LLMs

    Prompt caching permite que el LLM reutilice cálculos previos cuando envías prompts con prefijos repetidos. Resultado: menos coste y menor latencia.

    7 min lectura

    Qué es prompt caching (explicado sin jerga)

    Prompt caching es una técnica donde el proveedor del LLM guarda en memoria los cálculos realizados para la parte del prompt que ya ha procesado antes. Si envías un prompt largo donde el 80% es idéntico al anterior (por ejemplo, el mismo system prompt), el LLM no recalcula esa parte — usa el caché.

    Analogía simple: imagina que cada vez que pides una pizza, el restaurante preparara la masa desde cero. Prompt caching es como tener masas pre-hechas: solo necesitas añadir los ingredientes nuevos (tu mensaje), no repetir todo el proceso.

    Resultado práctico:

    • Menor coste: los tokens cacheados cuestan entre un 50% y un 90% menos- Menor latencia: la respuesta llega más rápido porque se procesa menos

    Cómo funciona a alto nivel

    Cuando envías un prompt al LLM, el modelo lo procesa token por token. Prompt caching funciona así:

    1. Primera petición: El LLM procesa todo el prompt completo (system prompt + historial + mensaje nuevo). Almacena en caché los cálculos del prefijo estático.

    2. Peticiones siguientes: Si el prefijo del prompt es idéntico al de una petición anterior, el LLM salta directamente al punto donde el prompt difiere y solo procesa lo nuevo.

    Ejemplo concreto:

    # Petición 1 (todo se procesa desde cero)
    [System prompt: 500 tokens] + [Mensaje: "¿Qué es Python?"]
    
    # Petición 2 (500 tokens cacheados, solo procesa el mensaje nuevo)
    [System prompt: 500 tokens ← CACHEADO] + [Mensaje: "¿Y JavaScript?"]
    

    Los 500 tokens del system prompt se procesan una sola vez y se reutilizan en todas las peticiones siguientes.

    Providers que soportan prompt caching

    ProviderSoporteDescuento tokens cacheadosTTL del cachéAnthropic (Claude)✅90% menos5 minutosOpenAI (GPT)✅50% menos~5-10 minGoogle (Gemini)✅75% menosConfigurableDeepSeek✅~90% menosVariable Nota importante: el caché tiene un TTL (Time To Live). Si pasan más de 5 minutos sin una petición con el mismo prefijo, el caché se invalida y la siguiente petición se procesa completa.

    Para agentes con tráfico constante, el caché se mantiene activo casi siempre. Para agentes con uso esporádico, el beneficio es menor.

    Cómo aprovechar prompt caching en tu agente

    1. Pon el contenido estático al inicio del prompt: System prompt, instrucciones, contexto fijo — todo al principio. El contenido dinámico (mensaje del usuario) al final.

    2. Mantén el system prompt idéntico: Cualquier cambio, incluso un espacio, invalida el caché. No generes system prompts dinámicos si quieres beneficiarte del caching.

    3. Usa prefijos largos: Cuanto más largo sea el prefijo cacheado, mayor el ahorro. Un system prompt de 2.000 tokens se beneficia mucho más que uno de 200.

    4. Mantén tráfico constante: El caché expira. Si tu agente tiene tráfico irregular, considera enviar peticiones "heartbeat" para mantener el caché activo (aunque esto tiene un coste propio que debes calcular).

    Para una guía práctica sobre cómo implementar prompt caching con agentes IA, lee nuestro tutorial sobre prompt caching y ahorro en LLMs.

    Preguntas Frecuentes

    prompt-cachingahorrolatenciaglosariollm

    Artículos Relacionados

    🦞 El briefing semanal de IA open source

    Cada lunes: un tutorial nuevo, las comparativas que importan y los trucos que solo compartimos por email. Ya somos +500 técnicos en la colonia.

    Usamos cookies analíticas para mejorar tu experiencia. Ni siquiera un crustáceo se escapa de las cookies 🦞🍪 Más info