De 56% a 92% de aprobación en una noche — el mismo loop que optimiza código ahora optimiza tu contenido.
AutoResearch es un loop de optimización iterativa: evalúas un skill contra criterios binarios, hacés un cambio, volvés a evaluar, y decidís si guardar o descartar el cambio.
Todo el mundo piensa que esto sirve solo para código. Shann³ demostró lo contrario: aplicó el mismo loop a una landing page y pasó de 56% a 92% de aprobación en una noche. Sin cambiar el copy. Cambiando cómo se optimiza.
"El loop eval → experiment → keep/discard no discrimina entre código y contenido. Discrimina entre lo que funciona y lo que no."
Cada eval es una pregunta SÍ/NO. 3-5 preguntas por skill. Ejemplos para contenido:
Ejecutá el skill 3 veces sin cambios. Cada run produce outputs contra los evals. El baseline es el promedio.
# Ejemplo: evaluar el skill content-writer
hermes -s autoresearch chat -q \
"Corré 3 runs del skill content-writer con el
brief en runs/active/{slug}/brief.md
y evaluá contra los 4 criterios"
Un cambio por experimento. Podés modificar:
Después del cambio, corré 3 runs más y compará contra el baseline.
Si el score mejora → KEEP (guardar el cambio). Si empeora o se mantiene → DISCARD (volver atrás).
Después de cada keep, repetí desde el Paso 3 con otro cambio. El loop termina cuando no hay mejoras significativas durante 3 experimentos consecutivos.
El loop aplica a cualquier skill que produzca texto. Estos son los candidatos naturales en tu stack:
| Skill | Qué evaluar | Variables de cambio |
|---|---|---|
| content-writer | Voz, estilo, bookmarkability | voice-profile, avoid-slop, estructura |
| md-to-html | Preservación de contenido, diseño | CONTENT PRESERVATION rules, layout |
| copywriting | Claridad, CTA, persuasión | Headline formulas, estructura de página |
| evitar-escritura-ia | Detección y reemplazo | Tabla de palabras, severidad de filtro |
Shann³ (@shannholmberg) documentó su experimento con AutoResearch en marketing:
"No cambié el copy. Cambié cómo el sistema entiende qué es buen copy."
La lección: el loop no optimiza el output directamente. Optimiza el sistema que produce el output.
Arrancá con content-writer — es el más nuevo y donde más margen de mejora hay.
1. ¿El draft tiene al menos un dato concreto? (SÍ=1)
2. ¿El hook atrapa en los primeros 2 tuits? (SÍ=1)
3. ¿Suena a persona, no a IA? (SÍ=1)
4. ¿Tiene un takeaway que el lector pueda usar? (SÍ=1)
3 runs con el draft de "Bookmarks vs Likes" → registrá scores.
Un cambio por vez. Si el score sube → KEEP. Si no → DISCARD. Repetí hasta que no haya mejora en 3 experimentos.
| Error | Por qué no funciona | Qué hacer en su lugar |
|---|---|---|
| Cambiar 3 cosas a la vez | No sabés qué causó la mejora | Un cambio por experimento |
| Evals subjetivos | "Suena bien" no es medible | Preguntas binarias sin ambigüedad |
| Pocas runs por experimento | El azar afecta más que el cambio | Mínimo 3 runs por experimento |
| Optimizar el output, no el sistema | Mejorás un post, no la capacidad de hacer buenos posts | Apuntá siempre al skill, no al resultado puntual |
Artículo original: @shannholmberg en X
Skill autoresearch: github.com/olelehmann1337/autoresearch-skill
Content-Writer Skill: ~/.hermes/skills/content-writer/
ADMP — Ariel Di Stefano · 11 mayo 2026