Casi todo roadmap de producto en 2026 tiene una sección de "AI agents". El patrón normalmente es el mismo: una lista de 8 a 20 ideas de agentes, generadas por founders, ventas, clientes y equipos internos. El PM intenta priorizarlas y se atasca. La razón del bloqueo rara vez es falta de juicio. Es que la mayoría de equipos tratan las ideas de agentes como una categoría cuando en realidad son tres cosas arquitecturalmente distintas con costes, timelines y perfiles de riesgo muy distintos.
Hamza Farooq y Jaya Rajwani lo articularon claramente en su pieza en Lenny's Newsletter. Este artículo destila su framework de tres categorías y añade la lógica de priorización para equipos de producto que necesitan decidir qué construir primero.
Por qué la priorización mixta de categorías falla
El problema no es que les falten ideas; es que intentan priorizar tipos fundamentalmente distintos de sistemas como si fueran lo mismo.
Imagina priorizar "construir un auto-responder de email simple" contra "construir una red multi-agente que coordine operaciones de ventas y marketing". El primero envía en 2 semanas con ROI predecible. El segundo es un proyecto de research multi-trimestral con outcomes inciertos. Compararlos en la misma escala produce sinsentido. O subestimas el segundo o sobreestimas el primero.
El arreglo es ordenar las iniciativas de agentes en su categoría arquitectural antes de priorizar. Después prioriza dentro de categorías, y asigna capacidad entre categorías deliberadamente.
Categoría 1: Automatización determinista (workflow predefinido con nodos LLM)
Qué es
Un workflow predefinido donde uno o dos pasos usan un LLM para manejar texto, clasificación o generación. El flujo de control es determinista; el LLM es un nodo, no el cerebro.
Ejemplos
- Soporte de email: ticket entrante → LLM clasifica intención → ruta a plantilla → humano revisa y envía
- Enriquecimiento de leads: lead nuevo → LLM extrae info de empresa de fuentes públicas → actualiza CRM
- Moderación de contenido: post de usuario → LLM puntúa violaciones de policy → marca para humano o rechaza automáticamente
Por qué empezar aquí
El 60-70% de las oportunidades de agentes encajan en Categoría 1. El patrón está bien entendido, el coste es predecible y el ROI es medible en semanas. Un ejemplo real de la pieza fuente: un agente de soporte de email alcanzó 52% de completitud de tarea en la semana 1 y 87% en la semana 8, generando $18K/mes en ahorros. Ese tipo de ROI claro casi nunca aparece en Categoría 2 o 3 en el mismo timeframe.
Implicación para el roadmap
La mayoría de equipos debería tener el 70% de su capacidad de agentes en trabajo de Categoría 1. Paga por los experimentos en Categorías 2 y 3.
Categoría 2: Agentes de razonamiento y acción (ReAct)
Qué es
El LLM decide qué hacer siguiente dinámicamente. Selecciona de un set de herramientas, las corre, lee el output, decide el siguiente paso. El flujo de control no está predeterminado; el agente razona sobre él.
Ejemplos
- Asistente de compras: usuario pregunta → agente decide si consultar inventario, chequear precios, sugerir alternativas o escalar a humano
- Agente de research: usuario pregunta → agente busca, lee, sintetiza, decide si necesita más búsqueda, produce reporte
- Onboarding de clientes: usuario se registra → agente decide qué flujo de bienvenida correr basado en tamaño de empresa, industria y metas declaradas
Por qué es más difícil
El agente toma decisiones que el equipo no pre-especificó. Esto significa que el agente a veces hará cosas que el equipo no anticipó. La QA es más difícil. Los modos de fallo son más grandes. Un asistente de compras en producción podría mejorar la completitud de tarea de 71% a 86% durante meses de iteración, con lift de conversión moviéndose de +8% a +22%. Los números son geniales pero tardan meses y la variabilidad es real.
Implicación para el roadmap
25-30% de la capacidad de agentes. Elige casos de uso de alto valor y bien delimitados. La frontera importa más que la ambición: un agente para una tarea claramente definida es mucho más enviable que un agente para una abierta.
Categoría 3: Redes multi-agente
Qué es
Múltiples agentes especializados coordinándose entre dominios, con un agente orquestador o mensajería peer-to-peer entre ellos. El sistema tiene comportamiento emergente; incluso el equipo que lo construyó no puede predecir totalmente qué hará en cada situación.
Ejemplos
- Un pipeline de ventas con un agente para outreach, uno para calificación, uno para generación de propuestas, todos coordinándose
- Un pipeline de desarrollo de código con un agente planificando, uno codeando, uno testeando, uno revisando
- Un ecosistema de servicio al cliente con agentes especializados para soporte, facturación, retención y escalación
Por qué es la categoría más arriesgada
Los sistemas multi-agente tienen todos los retos de Categoría 2 multiplicados por el número de agentes, más problemas emergentes de coordinación. Debuggear es difícil. La fiabilidad es difícil. El estado del arte aún se mueve rápido, lo que significa que las best practices de hoy se verán ingenuas en un año.
Implicación para el roadmap
5-10% de capacidad, mayormente como exploración o apuestas de research. El outcome esperado es aprendizaje, no enviar un sistema de producción estable. Trátalo como presupuesto de I+D.
El patrón de asignación que funciona
| Categoría | % de capacidad de agentes | Timeline esperado de ROI | Perfil de riesgo |
|---|---|---|---|
| 1: Determinista | 60-70% | Semanas | Bajo |
| 2: ReAct | 25-30% | Meses | Medio |
| 3: Multi-Agente | 5-10% | Trimestres | Alto |
Esta asignación produce un portfolio: la mayoría del presupuesto entrega valor a corto plazo, una porción significativa explora la siguiente frontera y una apuesta pequeña sondea el horizonte. Los equipos que ponen 100% en Categoría 1 se estancan. Los que ponen 50% en Categoría 3 se queman.
Cómo priorizar dentro de Categoría 1
Dentro de Categoría 1 específicamente, la priorización es más fácil porque la matemática es más predecible. Puntúa cada candidato en:
- Volumen: ¿cuántas veces por día o semana corre este workflow?
- Coste-por-ejecución antes de automatizar: minutos humanos o coste de sistema
- Confianza en la precisión del LLM: ¿qué tan bien maneja el LLM este tipo de tarea hoy?
- Coste de fallo: ¿qué pasa si el LLM se equivoca?
Alto volumen, alto coste-por-ejecución, alta confianza en LLM, bajo coste de fallo = arriba de la lista. El ejemplo del agente de soporte de email puntúa bien en las cuatro: miles de tickets, varios minutos cada uno, los LLMs manejan clasificación fiablemente, y el peor caso es que un humano revisa antes de enviar.
El error común del roadmap
Los equipos se saltan el paso de categorización y terminan con roadmaps de categorías mixtas donde las pequeñas victorias de Categoría 1 se despriorizan por las ambiciones visibles de Categoría 3 que nunca envían. Doce meses después, el equipo tiene cero ROI de agentes y un prototipo de Categoría 3 que aún no funciona fiablemente.
Categoriza primero. Prioriza dentro de categorías. Asigna entre categorías deliberadamente. El roadmap que emerge es enviable.
Para llevar
No todos los AI agents son iguales arquitecturalmente, y tratarlos como una categoría hace la priorización imposible. Las tres categorías (automatización determinista, agentes ReAct, redes multi-agente) tienen costes, timelines y perfiles de riesgo muy distintos. La asignación que funciona: 60-70% en Categoría 1 para ROI cercano, 25-30% en Categoría 2 para exploración, 5-10% en Categoría 3 como research. Dentro de categorías, prioriza por volumen, coste, confianza en LLM y coste de fallo. Los equipos que envían valor de agentes en 2026 son los que empezaron por la categoría correcta y resistieron la tentación de liderar con la más ambiciosa.


