📚TutorialesIntermedio

    Prompt Caching: Cómo Funciona y Cuánto Puedes Ahorrar en tu LLM

    El prompt caching puede reducir tu factura de LLM un 90%. Pero casi nadie lo entiende bien. Te explico cómo funciona internamente y cuánto puedes ahorrar realmente.

    11 min lectura

    ¿Qué es el prompt caching?

    Prompt caching es una técnica donde el proveedor de LLM almacena internamente partes de tu prompt que se repiten entre requests, evitando reprocesarlas cada vez.

    Piensa en cómo funciona un navegador web: la primera vez que visitas un sitio, descarga todo (HTML, CSS, imágenes). Las siguientes veces, reutiliza lo que ya tiene en caché. Solo descarga lo que cambió.

    El prompt caching hace lo mismo con los tokens. Tu system prompt de 500 tokens se "cachea" en la primera request. Las siguientes 99 requests no necesitan reprocesar esos 500 tokens — el modelo ya los tiene "en memoria".

    El resultado: pagas 500 tokens una vez y ~50 tokens (o menos) las siguientes veces por el mismo contenido.

    Cómo funciona internamente

    Sin entrar en detalles de GPU que no necesitas, el proceso simplificado es:

    1. Primera request (cache miss):

    [System prompt: 500 tokens] + [User message: 100 tokens]
    → Total procesado: 600 tokens
    → Coste: 600 tokens × precio normal
    → El provider cachea los 500 tokens del system prompt
    

    2. Siguientes requests (cache hit):

    [System prompt: 500 tokens CACHEADOS] + [User message: 120 tokens]
    → Total procesado: 120 tokens (nuevos) + 500 tokens (cacheados)
    → Coste: 120 tokens × precio normal + 500 tokens × precio reducido (10-50% del normal)
    

    ¿Por qué no es gratis? Porque el modelo aún necesita "leer" los tokens cacheados para generar una respuesta coherente. Pero la lectura de caché es 2-10x más barata que el procesamiento completo.

    TTL (Time To Live): El caché expira. En Anthropic, dura ~5 minutos de inactividad. En OpenAI, ~1 hora. Después, la siguiente request es un cache miss completo.

    Providers que lo soportan en 2026

    ProviderCachingDescuentoTTLMínimo tokens AnthropicAutomático90% (input cacheado)~5 min1.024 tokens OpenAIAutomático (prefijos)50%1 horaVariable **Google (Gemini)**Manual (Context Caching API)VariableConfigurable32.768 tokens GroqNo soportado——— Together AIParcial30%VariableVariable

    Anthropic es el ganador claro: 90% de descuento, automático (no necesitas hacer nada especial), y funciona con todos los modelos Claude.

    Configuración práctica

    Con Anthropic (automático):

    No necesitas configurar nada específico. Si tu system prompt tiene >1.024 tokens, Anthropic lo cachea automáticamente. Para maximizar el cache hit rate:

    # Mantén el system prompt estático (no incluyas timestamps dinámicos)
    # Agrupa las instrucciones al inicio del prompt
    # Pon el contenido variable (historial, contexto) al final
    
    system_prompt = """
    [INSTRUCCIONES ESTÁTICAS - se cachean]
    Eres un asistente personal. Respondes en español.
    Estilo directo, sin relleno.
    ...más instrucciones fijas...
    """
    
    # El historial va DESPUÉS del system prompt
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": "último mensaje del usuario"}
    ]
    

    Con OpenAI:

    Similar pero con 50% de descuento en lugar de 90%. El caching de prefijos funciona si los primeros N tokens del prompt son idénticos entre requests.

    Error común: Incluir un timestamp o ID de sesión al inicio del system prompt. Esto invalida el caché porque los primeros tokens cambian.

    Cálculo de ahorro real con ejemplos numéricos

    Vamos a calcular el ahorro para tres escenarios reales:

    Escenario 1: Asistente personal (50 mensajes/día, Anthropic Claude Haiku)

    Sin cachingCon caching System prompt500 tokens × 50 = 25.000500 + (49 × 50) = 2.950 User messages200 × 50 = 10.000200 × 50 = 10.000 Total input/día35.000 tokens12.950 tokens Coste/mes ($0.25/1M)$0.26$0.10

    Escenario 2: Agente de soporte (500 mensajes/día, Claude Sonnet)

    Sin cachingCon caching System prompt2.000 × 500 = 1.000.0002.000 + (499 × 200) = 101.800 Coste/mes ($3/1M)$90$9.16

    Escenario 3: Pipeline multi-agente (200 calls/día, Claude Opus)

    Sin cachingCon caching System prompt3.000 × 200 = 600.0003.000 + (199 × 300) = 62.700 Coste/mes ($15/1M)$270$28.22

    Resumen: El prompt caching ahorra entre 60% y 90% del coste de input tokens. Cuanto más grande el system prompt y más requests hagas, mayor el ahorro.

    Preguntas Frecuentes

    prompt-cachingllmahorrotokensoptimización

    Artículos Relacionados

    🦞 El briefing semanal de IA open source

    Cada lunes: un tutorial nuevo, las comparativas que importan y los trucos que solo compartimos por email. Ya somos +500 técnicos en la colonia.

    Usamos cookies analíticas para mejorar tu experiencia. Ni siquiera un crustáceo se escapa de las cookies 🦞🍪 Más info