Cómo los subagentes de Claude solucionan los cuellos de botella en flujos de trabajo largos

Claude Code se ha convertido en una palanca de productividad seria para los equipos de ingeniería. Las ganancias en las primeras semanas suelen ser obvias. Lo que no es tan obvio es lo que sucede una vez que su equipo comienza a usarlo para trabajos más largos y ambiciosos: refactorizaciones de varios archivos, auditorías grandes, desarrollo de funciones de principio a fin. A esa escala, la calidad de la producción y el costo dejan de seguir el ritmo que tuvieron al principio, y las razones no siempre son fáciles de ver desde una perspectiva de liderazgo.

La respuesta casi nunca es el modelo. Es la arquitectura que rodea al modelo. Los equipos que obtienen de 5 a 10 veces más de Claude Code no ejecutan una versión diferente de Claude. Ejecutan la misma versión con subagentes de Claude conectados, lo que mantiene las sesiones largas nítidas en lugar de permitir que decaigan. Esta pieza es para las personas que deciden dónde invertir el tiempo de ingeniería: analiza los cinco cuellos de botella que limitan silenciosamente el rendimiento de su equipo, los patrones de subagentes que solucionan cada uno y cuándo pasar a equipos de agentes de Claude Code. Al final, sabrá qué preguntar a su líder de ingeniería y cómo detectar si su configuración actual está dejando dinero real sobre la mesa.

Qué son realmente los subagentes de Claude

Un subagente de Claude es una instancia aislada de Claude Code con su propia ventana de contexto de ~200K, su propio prompt del sistema, su propia lista de herramientas permitidas y sus propios permisos. La sesión principal le delega una tarea. El subagente realiza el trabajo de forma aislada y luego devuelve solo un resumen. Todo lo ruidoso que sucedió dentro del subagente permanece dentro del subagente.

El valor real aquí no es el paralelismo, aunque eso ayuda. Es el aislamiento. Cuando un subagente lee cuarenta archivos para encontrar un patrón, la sesión principal nunca ve esos cuarenta archivos. Ve un párrafo: “encontré el patrón, vive aquí, se ve así”. Eso mantiene el hilo principal nítido a lo largo de una sesión larga.

Tres tipos son dignos de mención. Los subagentes integrados como Explore y Code se distribuyen con Claude Code y se ejecutan automáticamente. Los subagentes personalizados viven en su carpeta .claude/agents/ y le permiten definir especialistas para seguridad, pruebas o documentación. Y si una sesión realmente no puede contener el trabajo, los equipos de agentes de Claude Code le permiten coordinar múltiples sesiones con mensajería entre ellas.

Claude Code se encuentra dentro de un panorama más amplio de frameworks de IA multiagente como LangChain, el SDK de Agentes de OpenAI y Google ADK, cada uno con diferentes compensaciones en orquestación, memoria y acceso a herramientas. Los subagentes son la respuesta de Anthropic al mismo problema de coordinación que esos frameworks intentan resolver, construidos directamente en el tiempo de ejecución de Claude Code en lugar de adjuntarse como una capa separada.

Los cinco cuellos de botella que rompen flujos de trabajo largos de Claude Code

Los líderes de ingeniería suelen describir las ralentizaciones de Claude Code en términos vagos: “el modelo empeora”, “olvida cosas”, “las sesiones se vuelven caras”. Estas son observaciones reales pero no son aleatorias. Cada una se mapea a una causa arquitectónica específica dentro de cómo una sesión de contexto único maneja el trabajo a lo largo del tiempo, y cada una tiene un patrón de subagente que la resuelve sin necesidad de un modelo diferente o una herramienta diferente.

Los cinco patrones a continuación cubren la mayoría de lo que ralentiza las sesiones largas. Saber cuál está afectando a su equipo es la diferencia entre lanzar más tokens al problema y arreglar realmente el flujo de trabajo.

La degradación del contexto es el lento declive en la calidad de la salida a medida que la ventana de contexto se llena. Se activa mucho antes del límite de tokens. Cuanto más contexto tiene el modelo, menos peso tienen sus instrucciones originales. Después de tres horas, el plan arquitectónico que trazó al principio está enterrado bajo los resultados de las herramientas, el contenido de los archivos y el razonamiento previo, y el modelo efectivamente comienza a ignorarlo.

La solución es delegar el trabajo ruidoso a un subagente. Todo lo que lea más de cinco archivos, analice grandes diffs o procese logs va a un subagente de Explore. La sesión principal nunca ve la salida sin procesar. Ve los hallazgos.

Sabrá que esto está funcionando cuando la calidad de la hora tres coincida con la calidad de la hora uno.

Cómo los subagentes solucionan los cuellos de botella en flujos de trabajo largos de Claude

Arrastre secuencial en el trabajo independiente

Cuando un flujo de trabajo largo ejecuta todo a través de una sesión principal, las piezas de trabajo independientes terminan esperando unas a otras sin una buena razón. La revisión de seguridad espera las pruebas, las pruebas esperan la documentación, la documentación espera la refactorización. El trabajo en sí nunca fue secuencial. La arquitectura lo hizo secuencial.

El patrón de dividir y fusionar disuelve esto. Los flujos de trabajo independientes se distribuyen a través de subagentes paralelos y los resultados regresan a un solo lugar. Donde los equipos se equivocan es al enviar subagentes en términos genéricos, lo que produce trabajo superpuesto, ediciones en los mismos archivos y un lío de fusión al final. Los equipos que lo hacen bien dan a cada subagente un rol nombrado, un entregable definido y límites claros sobre lo que puede tocar. Esa precisión es lo que convierte la ejecución paralela en un rendimiento real en lugar de tres agentes pisoteándose mutuamente.

Contaminación entre dominios

La degradación del contexto se trata de lo que se desvanece con el tiempo. La contaminación entre dominios se trata de lo que compite en el momento. Cuando a una sesión se le pide que contenga reglas de backend, reglas de frontend y convenciones de SDK simultáneamente, esos conjuntos de reglas interfieren entre sí. El modelo no se está quedando sin espacio. Se le está tirando en tres direcciones a la vez.

El fallo visible: los patrones de backend se filtran en los componentes de React, o las convenciones de frontend aparecen en los objetos de transferencia de datos. El código parece plausible a simple vista pero viola las convenciones que estableció para cada capa. Este es el resultado de pedirle a un contexto que sea experto en demasiadas cosas al mismo tiempo.

La solución es un subagente por dominio. El subagente de backend carga solo las instrucciones de backend. El subagente de frontend carga solo los patrones de componentes. El orquestador coordina entre ellos pero nunca intenta mantener todas las reglas por sí mismo. El mismo principio sustenta la arquitectura limpia en el desarrollo de software, y funciona por la misma razón: la separación de preocupaciones evita la deriva.

El colapso de las cuatro horas

El colapso de las cuatro horas ocurre cuando falla uno de los pasos del flujo de trabajo y toda la canalización se detiene, o cuando la sesión se queda sin espacio a mitad de camino y se pierde el estado acumulado. La mayoría de los flujos de trabajo de contexto único son frágiles de esta manera porque nada se guarda entre pasos.

La solución es un pipeline estructurado de Explorar, Planificar, Ejecutar. Cada fase es una invocación de subagente separada con una transferencia limpia a la siguiente. La puerta de revisión humana se encuentra entre Planificar y Ejecutar, donde el costo de detectar un error es menor.

Esto es importante a escala. El lanzamiento de Dynamic Workflows de Anthropic el 28 de mayo de 2026 mostró a Claude Code realizando migraciones de bases de código a través de cientos de miles de líneas, con el conjunto de pruebas existente como barra de validación. Una demostración migró una base de código de 750.000 líneas en once días con una tasa de aprobación de pruebas del 99,8%. Las ejecuciones a esa escala no sobreviven sin transferencias estructuradas entre fases.

Sobrecarga del orquestador

Los otros cuatro cuellos de botella se encuentran en el nivel del trabajador. La sobrecarga del orquestador es lo que sucede en el nivel del coordinador una vez que los trabajadores están en marcha. Tienes subagentes paralelos produciendo resúmenes limpios, pero el agente principal se está ahogando en el tráfico de llegada: diez resúmenes para leer, diez conjuntos de recomendaciones para reconciliar, diez hilos para mantener coherentes. El rendimiento se detiene no porque los trabajadores sean lentos, sino porque nada aguas abajo puede sintetizar su salida lo suficientemente rápido.

La solución es la moderación en la cima. El orquestador debe coordinar y nada más. El paralelismo debe coincidir con la independencia real de las tareas, no solo con la capacidad disponible. Un subagente revisor de solo lectura con una proporción de 1:3 o 1:4 ayuda a mantener alta la calidad sin aumentar la carga de fusión. Solo lectura es importante porque un revisor con acceso de escritura comenzará a solucionar problemas por sí mismo, lo que crea conflictos con los subagentes implementadores. La misma lógica sustenta cómo funciona una buena revisión de código en un equipo humano: el revisor marca, el implementador corrige. Cinco subagentes paralelos es el límite práctico para la mayoría de los equipos dentro de una sesión.

Subagentes vs. Equipos de agentes

Los subagentes son trabajadores dentro de una sesión de Claude Code. Los equipos de agentes de Claude Code coordinan múltiples sesiones, cada una con su propio contexto, comunicándose a través de mensajes entre compañeros de equipo. La elección entre ellos no es académica. Si se equivoca, o bien gasta dinero en equipos de agentes cuando los subagentes serían suficientes, o estira los subagentes más allá de donde una sesión puede manejar el trabajo.

Utilice subagentes cuando tenga un flujo de trabajo que necesite ayudantes debajo de él. Exploración paralela, delegación con alcance, lecturas aisladas de alto contexto. Utilice equipos de agentes cuando el trabajo en sí se divide en múltiples sesiones de mayor duración, los compañeros de equipo necesitan hablar entre sí o el contexto total excede lo que una sesión puede manejar de manera realista.

Dimensión

Subagentes de Claude