Los 15 loops de AI agents que la gente ya está corriendo (y los comandos para copiarlos)

15 patrones de loops con comandos copiables. De build-test-fix a PR review automático. Esto es lo que el mercado ya está corriendo.

2026-06-20

El error que todo el mundo comete: Goal vs Loop vs Schedule

La distinción más limpia la tiró un creador en TikTok (@inyourhandmedia):

  • Goal: seguí trabajando hasta que el resultado esté logrado. /goal — corre hasta que una condición verificable es verdadera. Un modelo rápido aparte chequea después de cada turno si realmente terminaste. Es el comando para "arreglalo hasta que los tests pasen".
  • Loop: repetí esta tarea mientras yo estoy acá. /loop 5m check the deploy — corre en timer mientras tu sesión está abierta. Es para vigilar algo, manos en la masa, ahora.
  • Schedule: seguí trabajando mientras yo no estoy. /schedule daily PR review at 9am — crea una rutina en la nube que corre con la laptop cerrada. El "mientras duermo".

Una trampa que aparece todo el tiempo: no existe el comando /routine en ninguna herramienta. En Claude Code el scheduler es /schedule. En Codex son Automations en la app. Si te equivocás de verbo, nada funciona.

De los 15 loops que Van Horn identificó, 11 salieron directo de X, TikTok, Reddit y GitHub con métricas de engagement real. Los otros 4 los levantó de la Forward Future Loop Library de Matthew Berman, un catálogo curado donde la señal no son los likes sino el criterio editorial.

Los 15 loops

Los agrupé por lo que hacen, no por orden de aparición.

### Coding loops

1. Build-test-fix (loop). El más demostrado de todos. 43.587 views, 1.040 comentarios en Instagram. Dos agentes: uno escribe código, el otro corre tests + lint + type checking y reporta exactamente qué se rompió. Se pasan el trabajo hasta que está limpio. El argumento es el dolor que mata: un agente one-shot shipea bugs.

2. Plan-generate-verify-fix (goal). 4.560 views en TikTok. Planifica, genera, verifica, arregla, repite. Todo se guarda en archivos. Tope fijo de 5 iteraciones. Solo leés la versión final. El tope es lo que lo hace seguro para dejar corriendo solo.

3. Goal-meta-skill (goal). 600+ estrellas en GitHub en días. Un skill cuyo único trabajo es convertir un pedido vago en un goal riguroso: el resultado esperado, cómo verificarlo, qué no tocar, cuándo parar. Como dijo el creador (@evgenii.arsentev): "tu agente no es tonto, tus instrucciones son vagas".

4. The anti-spin loop (loop). El mejor loop de Reddit. Corre build → audit → verify hasta que un contrato verificable por máquina se cumple. Tiene anti-spin stops: detección de no-progreso, cap de reintentos, detección de flip-flop, presupuesto. Existe porque la mayoría de los loops nunca se preguntan si están avanzando. Solo reintentan lo mismo o editan el test para que pase.

5. Completion-contract (goal). Arregla la falla más común: el agente que dice "listo" cuando no lo está. Antes de empezar escribe un contrato de qué significa "completo" y qué evidencia prueba cada requisito. Después se niega a declarar éxito sin esa evidencia.

### Review & QA loops

6. Boris's verifier loop (loop). La descripción con más engagement del tema (@bcherny, 781 likes). Claude Code + modelo avanzado + verificador en loop. Le das tareas y vas removiendo cuellos de botella. El verificador es la parte que todo el mundo saltea. Sin eso solo estás confiando en el agente.

7. roborev, post-commit reviewer. Un binario en Go, open source (roborev.io). Instala un git hook: cada commit dispara un review en background, los findings entran a un loop de fix mientras el contexto está fresco. 1.410 estrellas en GitHub. Se conecta a Claude Code, Codex y Gemini CLI.

8. Adversarial-review (catalog). El loop de Lukas Kucinski: Codex revisa los PRs de Claude antes del merge. Dos familias de modelos distintas tienen que estar de acuerdo. --max-iter 5 --threshold medium. Discute consigo mismo hasta 5 veces.

9. Quality streak loop (goal, catalog). No para en el primer test verde. Testea escenarios realistas y solo declara victoria después de un streak de pasadas exitosas. Un test verde es suerte. Un streak es confiabilidad.

### Operations loops

10. Five-minute repository maintainer (loop). Peter Steinberger mergeó 859 PRs en 30 días con 95% de aceptación. Cada 5 minutos mientras trabaja, el agente hace una pieza chica de mantenimiento. Qué limpiar lo decide el agente, no un script hardcodeado. Esa decisión es el punto entero.

11. 15.000 emails por día (routine). Un builder en r/LangChain posteó la arquitectura completa de un agente de email que procesa 15.000 correos de huéspedes de hotel por día. Loop sobre el inbox, clasifica, redacta respuestas, escala solo lo que necesita un humano.

12. The production error sweep (goal, catalog). Lee logs de producción, separa errores accionables de ruido, arregla los accionables con test, abre PR. El valor está en el triage. Si no le decís qué significa "accionable", persigue fantasmas.

13. Human-in-the-loop approval queue (loop). De la comunidad no-code en r/n8n. El workflow corre, pausa y te manda un mensaje con botones de aprobar, revisar o saltear. El stop condition es tu aprobación, no un test.

### Content & code generation loops

14. Write-loops-not-code (routine). La frase que empezó todo: el tipo que construyó Claude Code ya no escribe código, escribe loops, y los loops escriben el código mientras duerme. La versión más compartida (@0xMovez, 984 likes) le pone número: 30% de su código ya lo escriben loops. La forma es una rutina scheduleada que mira tus PRs y resuelve los arreglables mientras dormís.

15. The loop-engineer starter (harness). El video más visto de cómo setear uno (AI Jason, 15.436 views). Un template de harness + knowledge base que clonás, apuntás a tu repo y corrés. El on-ramp más rápido si querés un loop corriendo esta noche sin diseñar la plomería desde cero.

Lo que el hype no te cuenta

Dos advertencias volvieron una y otra vez en todas las plataformas.

La primera es costo. La versión romántica es "mil agentes construyen mi empresa de noche". La versión producción es una factura. Uber capó a sus engineers en USD 1.500 por herramienta por mes después de quemar el presupuesto anual de AI en 4 meses. Un usuario de Reddit torró USD 6.000 en una noche con un solo comando. El mejor resumen del movimiento es un comentario de YouTube con 196 likes:

> while (you have tokens): Burn them in a loop! That's what it is

Todo goal necesita presupuesto. Todo loop necesita un tope. Seteá el techo antes de irte, no después de que llegue el email.

La segunda es verificación. Un loop que no puede distinguir output bueno de malo no te ahorra trabajo. Solo produce errores más rápido.

> "un loop que no sabe distinguir output bueno de malo solo automatiza estar equivocado, más rápido. Escribir el loop es fácil. El verificador adentro es la parte difícil." — @ahmetbilicanxyz

Por eso /goal corre un modelo separado como juez en vez de dejar que el worker se corrija solo. Por eso los loops más fuertes —el de Boris, el build-test-fix pair, Clodex— todos ponen un segundo par de ojos independiente adentro del loop. Un agente calificándose a sí mismo borra el test que falla y se declara ganador.

Mi take: qué estoy corriendo y qué no

Estoy construyendo Hermes y Agent OS sobre exactamente esta arquitectura. No soy observador. Estos loops los estoy implementando. Mi lectura:

Lo que ya tengo andando: - Build-test-fix — Hermes ya corre en loop con verificador. No es dos agentes separados todavía, pero el patrón está. - Goal con condiciones verificables — el Agent OS despacha tareas con criterios de aceptación. No es /goal de Claude Code, pero la lógica es la misma. - Schedule — los cron jobs de Hermes son exactamente esto. Corren mientras duermo. GSC loop, competitor watch, morning brief. - Human-in-the-loop — todo lo que requiere aprobación pasa por Telegram. Es mi cola de approve/review/skip.

Lo que viene: - Verificador independiente. Hoy Hermes verifica su propio output. Necesito un segundo modelo que oficie de juez, como hace Boris. - Quality streak. Un test verde no alcanza. Quiero streaks. - Adversarial review. Dos modelos distintos revisándose mutuamente antes del merge.

Lo que NO aplica para mi stack: - No proceso 15.000 emails. Mi escala es otra. - No uso Claude Code ni Codex CLI. Mi runtime es Hermes. - El loop-engineer starter es para developers que empiezan de cero. Yo ya tengo la plomería.

Cómo arrancar esta noche

No necesitás los 15. La investigación converge en tres movimientos, uno de cada tipo:

  1. Un /loop de build-test-fix para que algo mejore mientras mirás.
  2. Un /loop de mantenimiento cada 5 minutos mientras trabajás.
  3. Un /schedule de PR review overnight para despertarte con trabajo hecho.

Cada uno con presupuesto y verificador. Eso es un loop stack funcionando para mañana a la mañana.

El shift que todos están orbitando es real y es más simple que el discourse. Dejá de ser la cosa adentro del loop. Escribí el goal, el loop o la routine, dale presupuesto y forma de chequearse, y dedicale la cabeza a decidir qué construir después.

Como dijo un practitioner cansado en Reddit cuando alguien preguntó qué se supone que hacés mientras el agente trabaja:

> "Salí a caminar. Llamá a tu vieja. Hacete una comida saludable. Cuidate."

— justinkthornton, r/codex

— Ariel Di Stefano