Cómo Funciona un Agente de IA: Arquitectura con Diagramas
Percepción, razonamiento, acción, memoria. Esas 4 palabras describen cómo funciona todo agente de IA — desde OpenClaw hasta los agentes más experimentales. Te lo explico con diagramas y un caso real.
El bucle básico: Percepción → Razonamiento → Acción
Todo agente de IA, sin importar lo complejo que sea, sigue el mismo patrón fundamental:
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ PERCEPCIÓN │ ──→ │ RAZONAMIENTO │ ──→ │ ACCIÓN │
│ (inputs) │ │ (LLM) │ │ (tools) │
└─────────────┘ └──────────────┘ └──────┬──────┘
↑ │
└─────────── RETROALIMENTACIÓN ←──────────┘
El agente percibe información del entorno, razona sobre qué hacer con ella, actúa ejecutando herramientas, y luego percibe el resultado de su acción para decidir el siguiente paso. Este bucle se repite hasta completar el objetivo.
Percepción: los sentidos del agente
La percepción son todos los canales por donde el agente recibe información:
- Mensajes de chat: WhatsApp, Telegram, Slack, Discord (OpenClaw soporta 10+)
- Eventos programados: cron jobs que disparan al agente cada X minutos/horas
- Webhooks: notificaciones de servicios externos (GitHub, Stripe, Gmail)
- Sensores: temperatura, movimiento, luz (MimiClaw, PicoClaw en IoT)
- Archivos: cambios en un directorio, nuevos documentos, emails entrantes
La calidad de la percepción determina la calidad de las decisiones. Un agente que solo lee texto es más limitado que uno que también lee imágenes, audio, y datos estructurados.
Razonamiento: el LLM como cerebro
El componente de razonamiento es lo que convierte un bot en un agente. Normalmente es un Large Language Model (LLM) como Claude, GPT-4, o Llama.
Qué hace el LLM:
- Interpreta la información percibida en contexto
- Decide si necesita más información o puede actuar
- Planifica secuencias de acciones multi-paso
- Evalúa si la acción anterior fue exitosa
- Ajusta el plan si algo falla
El prompt del sistema es crucial: define la personalidad, los límites y las instrucciones del agente. Un buen prompt del sistema es la diferencia entre un agente útil y uno caótico.
Coste: cada ciclo de razonamiento consume tokens. Claude Opus: ~$15/M tokens input, $75/M output. Claude Haiku: ~$0.25/$1.25. Elegir el modelo correcto para cada tarea es optimización pura.
Memoria: el contexto que hace inteligente al agente
Sin memoria, un agente es como una persona con amnesia: competente pero incapaz de acumular experiencia.
Memoria a corto plazo: la conversación actual. Se pierde al terminar la sesión. Limitada por la ventana de contexto del LLM (128K-200K tokens en modelos modernos).
Memoria a largo plazo: información que persiste entre sesiones. Implementaciones comunes:
- Base de datos vectorial: almacena embeddings de conversaciones pasadas para búsqueda semántica
- Archivos de notas: el agente escribe y lee archivos con información importante
- Key-value store: preferencias del usuario, configuraciones, datos recurrentes
OpenClaw implementa memoria a largo plazo mediante el Gateway: las sesiones se almacenan localmente y el agente puede consultar historial de conversaciones por contacto.
Herramientas y acciones: las manos del agente
Las herramientas son funciones que el agente puede invocar. Sin herramientas, el LLM solo genera texto. Con herramientas, puede hacer cosas.
Herramientas típicas:
- Búsqueda web: buscar información en internet
- Ejecución de código: correr scripts Python, bash, etc.
- APIs externas: enviar emails, crear tickets, publicar en redes
- Sistema de archivos: leer, escribir, mover archivos
- Navegador: navegar webs, extraer datos, completar formularios
- Bases de datos: consultar y modificar datos
Cómo decide qué herramienta usar: el LLM recibe una lista de herramientas disponibles con sus descripciones. Basándose en el objetivo actual, elige la más apropiada. Si la herramienta falla, intenta otra o pide ayuda al usuario.
Caso real: arquitectura de OpenClaw
OpenClaw implementa esta arquitectura así:
WhatsApp / Telegram / Slack / Discord
│
▼
┌───────────────────────┐
│ Gateway │
│ (plano de control) │
└──────────┬────────────┘
│
┌──────────┼──────────┐
│ │ │
Percepción Razonamiento Acción
(canales) (Claude/GPT) (tools)
│ │ │
└──────────┼──────────┘
│
┌────┴────┐
│ Memoria │
│ (local) │
└─────────┘
Percepción: mensajes de los canales conectados, webhooks, cron jobs, eventos del sistema.
Razonamiento: Claude (recomendado) o GPT-4 via API. El prompt del sistema define el comportamiento.
Acción: responder en canales, ejecutar herramientas, controlar el navegador (CDP), automatizaciones.
Memoria: sesiones almacenadas en el Gateway local, por contacto y por canal.
Cómo optimizar el rendimiento de tu agente
1. Elige el modelo correcto por tarea: no uses Claude Opus para responder "hola". Usa Haiku para tareas simples y Opus para razonamiento complejo.
2. Minimiza tokens de contexto: envía solo la información relevante al LLM, no todo el historial. Resúmenes > transcripciones completas.
3. Cachea respuestas comunes: si 50 personas preguntan lo mismo, no proceses con LLM cada vez. Crea respuestas predefinidas para FAQs.
4. Usa herramientas reactivas primero: antes de invocar al LLM, verifica si una regla simple resuelve el caso. El 80% de las interacciones pueden resolverse sin razonamiento complejo.
5. Monitorea costes: configura alertas de gasto en tu proveedor de API. Un agente mal configurado puede quemar $100 en una noche.
Preguntas Frecuentes
Artículos Relacionados
Tipos de Agentes de IA: 4 Categorías con Ejemplos Reales
No todos los agentes de IA son iguales. Existen 4 categorías fundamentales — reactivos, deliberativos, híbridos y multi-agente — y elegir la equivocada puede costarte meses.
Cómo Empezar con Agentes de IA en 2026: Guía Paso a Paso
No necesitas un doctorado para usar un agente de IA. Esta guía te lleva de 'nunca oí el término' a 'tengo uno corriendo en mi WhatsApp' en una tarde. Sin atajos y sin asumir que sabes algo.
¿Qué es un Agente de IA? La Explicación Simple que Necesitas
Si nunca oíste el término 'agente de IA' o lo confundes con un chatbot, esta guía de 8 minutos te deja claro: qué es, por qué importa, y cómo probar uno en 5 minutos.
Los 5 Mejores Agentes de IA Open Source en 2026: Guía Comparativa
5 agentes de IA open source que puedes instalar hoy, comparados en lo que importa: RAM mínima, lenguaje, canales soportados, LLMs compatibles, y cuánto cuesta operarlos al mes. Sin rankings pagados.
🦞 El briefing semanal de IA open source
Cada lunes: un tutorial nuevo, las comparativas que importan y los trucos que solo compartimos por email. Ya somos +500 técnicos en la colonia.