Ratio Input/Output en LLMs: Qué Es y Por Qué Importa
El ratio input/output de un LLM determina tu coste real por token. Te explico qué es, cómo calcularlo y por qué cambia completamente tu factura.
Qué es el ratio input/output (y por qué pocos lo calculan)
Cuando un proveedor de LLM te dice que cobra "$0.27 por millón de tokens de input y $1.10 por millón de output", la pregunta importante es: ¿cuántos tokens de input y cuántos de output genera tu aplicación?
El ratio input/output es la proporción entre tokens que envías (input) y tokens que recibes (output) en tu uso real. Y varía enormemente según el caso de uso:
- Chatbot de soporte: ratio ~70/30 (mucho contexto enviado, respuestas cortas)- Generación de contenido: ratio ~20/80 (prompt corto, respuesta larga)- Agente con tool-use: ratio ~80/20 (mucho contexto + historial, decisiones cortas)- Resumen de documentos: ratio ~90/10 (documento largo, resumen breve) Este ratio cambia completamente tu coste real porque input y output tienen precios diferentes.
Cómo calcular tu ratio y coste real
Paso 1: Mide tu uso real
Activa métricas de tokens en tu framework (OpenClaw, LangChain, etc.) y registra durante una semana cuántos tokens de input y output genera tu aplicación.
Paso 2: Calcula el ratio
Total input: 8.000.000 tokens
Total output: 2.000.000 tokens
Ratio: 80/20 (80% input, 20% output)
Paso 3: Calcula el coste real
Con DeepSeek V3 ($0.27 input, $1.10 output):
Input: 8M × $0.27/1M = $2.16
Output: 2M × $1.10/1M = $2.20
Total: $4.36
Coste medio por token: $4.36 / 10M = $0.436/1M tokens
Sorpresa: aunque el input es "barato" ($0.27), el output caro ($1.10) sube el coste medio. Si tu ratio fuera 50/50, el coste medio sería $0.685/1M — un 57% más caro.
Cómo optimizar tu ratio para pagar menos
Para reducir tokens de input:
Comprime el system prompt (menos tokens repetidos por petición)- Usa heartbeat para comprimir historial de conversación- Implementa prompt caching (los tokens cacheados cuestan menos) Para reducir tokens de output:
Pide respuestas concisas en el system prompt: "Responde en máximo 3 frases"- Usa
max_tokenspara limitar la longitud de respuesta- Pide formato estructurado (JSON) en vez de texto libre Ejemplo de ahorro:
# Antes: ratio 60/40, coste medio $0.54/1M
# Después de optimizar: ratio 75/25, coste medio $0.48/1M
# Ahorro: 11% en coste por token
Un 11% puede parecer poco, pero a escala de millones de tokens diarios, son cientos de dólares al mes.
Tabla de ratios típicos por caso de uso
Caso de usoRatio input/outputCoste medio* ($/1M)Agente con tool-use80/20$0.44Chatbot soporte70/30$0.52Clasificación de textos95/5$0.31Generación de contenido20/80$0.93Resumen de documentos90/10$0.35Code generation40/60$0.77 *Calculado con precios de DeepSeek V3.
Conclusión: los casos de uso con mucho output (generación, código) son los más caros. Los de mucho input y poco output (clasificación, resumen) son los más económicos. Conocer tu ratio te permite elegir el modelo óptimo para tu caso de uso específico.
Preguntas Frecuentes
Artículos Relacionados
Los LLMs Más Baratos en 2026: Ranking por Precio/Token
¿Cuál es el LLM más barato en 2026? Comparamos precios reales por millón de tokens de los principales modelos para agentes IA.
¿Qué es Prompt Caching? Ahorra Dinero en tus LLMs
Prompt caching permite que el LLM reutilice cálculos previos cuando envías prompts con prefijos repetidos. Resultado: menos coste y menor latencia.
🦞 El briefing semanal de IA open source
Cada lunes: un tutorial nuevo, las comparativas que importan y los trucos que solo compartimos por email. Ya somos +500 técnicos en la colonia.