SOP: Producción de Videos AI UGC Longform

 

2026-06-01

¿Para qué sirve este SOP?

Este procedimiento te permite producir videos AI UGC longform (60+ segundos) que:

  • Se ven genuinamente reales — sin el "uncanny valley" del contenido AI corto
  • Mantienen consistencia de personaje entre tomas (el problema #1 del longform)
  • Suenan humanos en toda la duración (no robóticos después de 15 segundos)
  • Convierten más que short-form para audiencias tibias y etapa de conversión
  • Cuestan centavos por video corriendo in-house (vs. USD 3+ por SaaS)

El short-form AI UGC ya está resuelto. Longform es donde el 99% hace agua — y justo es el formato que cierra ventas.

Requisitos previos

RequisitoDetalle
Plataforma de generación de videoSeedance, Kling, o WAN con API key propia
Plataforma de generación de imágenesPara generar referencias de personaje (MJ, DALL-E, SD)
Herramienta de upscalingPara limpiar artefactos de las imágenes de referencia
Herramienta de voz dedicada (opcional)Para videos 60s+ donde el audio nativo no alcanza
Editor de videoPara assembly final, continuity pass y captions
Infraestructura propiaCrítico: correr en Replicate/AtlasCloud/fal.ai con keys propias, NO por SaaS

Paso 1: Generar referencias multi-ángulo del personaje

Este es el paso más importante. Sin referencias multi-ángulo, tu personaje va a cambiar de cara entre tomas.

Procedimiento:

  1. Generá un batch inicial de 6-8 imágenes del personaje con el mismo prompt
  2. Evaluá cada imagen contra 3 criterios:
  3. Seleccioná la mejor variante y hacé upscaling para limpiar artefactos
  4. Con la imagen upscaled como referencia, generá 3 ángulos adicionales:
  5. Verificá que las 4 imágenes tengan la misma estructura facial, tono de piel, edad y características demográficas

Tiempo: 5-15 minutos. Costo: centavos en generación de imágenes.

Por qué importa: Un video longform de 60s tiene 5-8 tomas desde ángulos distintos. Sin referencias por ángulo, cada transición es una ruleta de personaje.

Paso 2: Escribir el guion con estructura de 6 secciones

Longform necesita una estructura que sostenga la atención 60+ segundos. No es un short estirado.

### Estructura del guion

#SecciónTimingFunción
1Hook0-5sParar el scroll. Usar especificidad extrema.
2Señal de persona5-12sEstablecer credibilidad con lenguaje de experiencia real. Frases que un marketer nunca escribiría.
3Amplificación del dolor12-25sNombrar consecuencias específicas, alternativas fallidas que ya probó, sentarse en el peso del problema.
4Puente de mecanismo25-35sExplicar por qué los approaches estándar fallaron. Validar la experiencia del viewer.
5Producto + prueba35-55sProducto como descubrimiento, no como anuncio. 2-3 puntos de prueba con números, timeframes, antes/después.
6CTA55-60s+Conclusión natural de la historia, no interrupción. Energía más calma y conversacional.

### Reglas del guion

  • Leer en voz alta el guion completo antes de producir. Si trabás en alguna parte, se reescribe.
  • Si suena "a marca", se reescribe.
  • Si una persona real no usaría esa frase, se reescribe.
  • Para videos 60s+: considerar herramienta de voz dedicada para el voiceover.

Paso 3: Producir shot-by-shot

No renderices el video completo de una. Cada toma se genera por separado y se ensambla después.

### Por cada toma del shot list

  1. Seleccioná la referencia de ángulo correcta del set multi-ángulo
  2. Si la toma comparte entorno con otras, usá la referencia de escena común
  3. Escribí el prompt enfocado para esta toma específica:
  4. Incluí las especificaciones técnicas fijas en todo prompt:

### Ventajas de shot-by-shot

  • Usás el ángulo correcto para cada toma (no le pedís al modelo que invente)
  • Regenerás tomas individuales que no pasan QC sin rehacer todo
  • Audio sync más limpio (cada toma es una unidad enfocada)

Paso 4: Quality check por toma

Cada toma se evalúa contra 6 criterios. Los primeros 4 son estándar, los últimos 2 son específicos de longform.

### QC estándar (4 puntos)

  1. Realismo de movimiento — ¿el movimiento es fluido y natural?
  2. Renderizado de piel — ¿hay textura, poros, micro-imperfecciones?
  3. Sincronización de audio — ¿la boca coincide con la voz?
  4. Test de persona real (2s) — ¿parece humano en los primeros 2 segundos?

### QC específico longform (2 puntos adicionales)

  1. Consistencia de personaje — ¿este personaje matchea las tomas anteriores? ¿Cambió edad, pelo, estructura facial, tono de piel?
  2. Continuidad de registro vocal — ¿la energía y pacing de la voz matchean las tomas adyacentes?

Regla: Si falla #5 o #6, se regenera la toma con la referencia de personaje con más peso. Estos checks son los que hacen que longform funcione.

Paso 5: Capa de audio

El audio es donde más se cae el longform AI UGC. A más duración, más se notan los errores.

### Audio nativo (30-45s)

Para videos de 30-45 segundos, el audio nativo suele alcanzar si:

  • Especificás arco emocional para el audio en el prompt (no solo para lo visual): cálido al abrir → construye en la sección de dolor → medido en el puente → relajado y convincente en el cierre
  • Marcás pausas deliberadas en el guion (los humanos no hacemos pausas uniformes)
  • Hacés limpieza de audio en post: eliminar silencios muertos, ajustar pacing, verificar energía consistente

### Herramienta de voz dedicada (60s+)

Para videos de 60+ segundos donde el audio es el eje de la retención:

  1. Generar voiceover en herramienta dedicada (control granular de variación emocional, pacing por palabra, ritmo de respiración)
  2. Correr el video en modo lip-sync contra ese voiceover

Costo adicional: 30-45 minutos extra. Solo para contenido high-stakes.

Paso 6: Assembly final y post-producción

### Continuity pass (antes del export final)

ChequeoQué buscar
Continuidad de iluminación¿Toma 1 tiene luz cálida de mañana y toma 2 luz fría de tarde? → inconsistencia temporal
Continuidad emocional¿El estado emocional al final de una toma es compatible con el inicio de la siguiente?
Continuidad de audio¿La energía vocal al final de una toma matchea el inicio de la siguiente?

### Captions

  • Misma estética que Instagram Stories (texto dinámico, no bloques uniformes)
  • Palabras clave con énfasis visual (sirve como accesibilidad y ritmo visual)
  • Distribuir según pacing del voiceover, no en bloques uniformes

### Sound-off check

Crítico: Ver el video completo sin sonido antes de deployar.

El 50-80% de viewers lo ven sin sonido inicialmente. Si lo visual solo no sostiene la atención, el audio no importa — el viewer scrollea antes de que empiece.

Verifier Checklist

  • [ ] Set multi-ángulo generado (4 ángulos, consistencia facial verificada)
  • [ ] Guion leído en voz alta, sin trabas, sin frases "de marca"
  • [ ] Todas las tomas generadas shot-by-shot (no render único)
  • [ ] QC de 6 puntos pasado en cada toma
  • [ ] Continuity pass: iluminación, emoción, audio consistentes entre tomas
  • [ ] Captions con énfasis visual en keywords
  • [ ] Sound-off check aprobado (sostiene atención sin audio)
  • [ ] Audio: nativo para 30-45s, herramienta dedicada para 60s+

Troubleshooting

SíntomaCausa probableSolución
Personaje cambia entre tomasNo usaste referencias multi-ánguloRegenerar set multi-ángulo (Paso 1), regenerar tomas con referencia correcta
Voz suena robótica después de 15sAudio nativo sin arco emocional especificadoAgregar emotional arc spec al prompt de audio (Paso 5)
Viewer dropea en los primeros 5sHook débil o genéricoReescribir hook con especificidad extrema (número, nombre, situación concreta)
Video "se siente AI" aunque cada toma esté bienInconsistencias acumuladas entre tomasRevisar continuity pass (Paso 6), regenerar tomas que rompan coherencia
Costo se disparaDemasiadas regeneraciones sin ajustar promptMejorar prompts iniciales, ajustar peso de referencia de personaje
Audio y video desincronizados en tomas largasNative audio sync se degrada en duraciónUsar herramienta de voz dedicada + lip-sync mode (Paso 5)

Mantenimiento

  • Rotación de referencias: Cada 2-3 semanas, regenerar el set multi-ángulo con modelos actualizados
  • Biblioteca de referencias: Acumular personajes, escenas y ángulos como assets reutilizables
  • Model routing: Probar periódicamente Seedance vs Kling vs WAN para cada tipo de toma — lo que funciona hoy puede degradarse mañana
  • Costo tracking: Llevar registro de costo por video. Si supera USD 3, revisar qué está disparando regeneraciones

Referencias

  • Guía original: [How to Create Realistic Longform AI UGC Videos](https://x.com/adriansolarzz/status/2061244589844082788) por Adrian Solarz
  • Plataformas: Replicate, AtlasCloud, fal.ai (generación con keys propias)
  • Modelos de video: Seedance, Kling, WAN
  • Triage ADMP: ADMP-20260601-001

SOP generado por Hermes Agent · ADMP Output System · Junio 2026

— Ariel Di Stefano