📖GlosarioPrincipiante

    Ratio Input/Output en LLMs: Qué Es y Por Qué Importa

    El ratio input/output de un LLM determina tu coste real por token. Te explico qué es, cómo calcularlo y por qué cambia completamente tu factura.

    7 min lectura

    Qué es el ratio input/output (y por qué pocos lo calculan)

    Cuando un proveedor de LLM te dice que cobra "$0.27 por millón de tokens de input y $1.10 por millón de output", la pregunta importante es: ¿cuántos tokens de input y cuántos de output genera tu aplicación?

    El ratio input/output es la proporción entre tokens que envías (input) y tokens que recibes (output) en tu uso real. Y varía enormemente según el caso de uso:

    • Chatbot de soporte: ratio ~70/30 (mucho contexto enviado, respuestas cortas)- Generación de contenido: ratio ~20/80 (prompt corto, respuesta larga)- Agente con tool-use: ratio ~80/20 (mucho contexto + historial, decisiones cortas)- Resumen de documentos: ratio ~90/10 (documento largo, resumen breve) Este ratio cambia completamente tu coste real porque input y output tienen precios diferentes.

    Cómo calcular tu ratio y coste real

    Paso 1: Mide tu uso real

    Activa métricas de tokens en tu framework (OpenClaw, LangChain, etc.) y registra durante una semana cuántos tokens de input y output genera tu aplicación.

    Paso 2: Calcula el ratio

    Total input: 8.000.000 tokens
    Total output: 2.000.000 tokens
    Ratio: 80/20 (80% input, 20% output)
    

    Paso 3: Calcula el coste real

    Con DeepSeek V3 ($0.27 input, $1.10 output):
      Input: 8M × $0.27/1M = $2.16
      Output: 2M × $1.10/1M = $2.20
      Total: $4.36
    
    Coste medio por token: $4.36 / 10M = $0.436/1M tokens
    

    Sorpresa: aunque el input es "barato" ($0.27), el output caro ($1.10) sube el coste medio. Si tu ratio fuera 50/50, el coste medio sería $0.685/1M — un 57% más caro.

    Cómo optimizar tu ratio para pagar menos

    Para reducir tokens de input:

    • Comprime el system prompt (menos tokens repetidos por petición)- Usa heartbeat para comprimir historial de conversación- Implementa prompt caching (los tokens cacheados cuestan menos) Para reducir tokens de output:

    • Pide respuestas concisas en el system prompt: "Responde en máximo 3 frases"- Usa max_tokens para limitar la longitud de respuesta- Pide formato estructurado (JSON) en vez de texto libre Ejemplo de ahorro:

    # Antes: ratio 60/40, coste medio $0.54/1M
    # Después de optimizar: ratio 75/25, coste medio $0.48/1M
    # Ahorro: 11% en coste por token
    

    Un 11% puede parecer poco, pero a escala de millones de tokens diarios, son cientos de dólares al mes.

    Tabla de ratios típicos por caso de uso

    Caso de usoRatio input/outputCoste medio* ($/1M)Agente con tool-use80/20$0.44Chatbot soporte70/30$0.52Clasificación de textos95/5$0.31Generación de contenido20/80$0.93Resumen de documentos90/10$0.35Code generation40/60$0.77 *Calculado con precios de DeepSeek V3.

    Conclusión: los casos de uso con mucho output (generación, código) son los más caros. Los de mucho input y poco output (clasificación, resumen) son los más económicos. Conocer tu ratio te permite elegir el modelo óptimo para tu caso de uso específico.

    Preguntas Frecuentes

    ratioinput-outputtokenscosteglosario

    Artículos Relacionados

    🦞 El briefing semanal de IA open source

    Cada lunes: un tutorial nuevo, las comparativas que importan y los trucos que solo compartimos por email. Ya somos +500 técnicos en la colonia.

    Usamos cookies analíticas para mejorar tu experiencia. Ni siquiera un crustáceo se escapa de las cookies 🦞🍪 Más info