SOP: Producción de Videos AI UGC Longform

¿Para qué sirve este SOP?

Este procedimiento te permite producir videos AI UGC longform (60+ segundos) que:

Se ven genuinamente reales — sin el "uncanny valley" del contenido AI corto
Mantienen consistencia de personaje entre tomas (el problema #1 del longform)
Suenan humanos en toda la duración (no robóticos después de 15 segundos)
Convierten más que short-form para audiencias tibias y etapa de conversión
Cuestan centavos por video corriendo in-house (vs. USD 3+ por SaaS)

El short-form AI UGC ya está resuelto. Longform es donde el 99% hace agua — y justo es el formato que cierra ventas.

Requisitos previos

Requisito	Detalle
Plataforma de generación de video	Seedance, Kling, o WAN con API key propia
Plataforma de generación de imágenes	Para generar referencias de personaje (MJ, DALL-E, SD)
Herramienta de upscaling	Para limpiar artefactos de las imágenes de referencia
Herramienta de voz dedicada (opcional)	Para videos 60s+ donde el audio nativo no alcanza
Editor de video	Para assembly final, continuity pass y captions
Infraestructura propia	Crítico: correr en Replicate/AtlasCloud/fal.ai con keys propias, NO por SaaS

Paso 1: Generar referencias multi-ángulo del personaje

Este es el paso más importante. Sin referencias multi-ángulo, tu personaje va a cambiar de cara entre tomas.

Procedimiento:

Generá un batch inicial de 6-8 imágenes del personaje con el mismo prompt
Evaluá cada imagen contra 3 criterios:
Seleccioná la mejor variante y hacé upscaling para limpiar artefactos
Con la imagen upscaled como referencia, generá 3 ángulos adicionales:
Verificá que las 4 imágenes tengan la misma estructura facial, tono de piel, edad y características demográficas

Tiempo: 5-15 minutos. Costo: centavos en generación de imágenes.

Por qué importa: Un video longform de 60s tiene 5-8 tomas desde ángulos distintos. Sin referencias por ángulo, cada transición es una ruleta de personaje.

Paso 2: Escribir el guion con estructura de 6 secciones

Longform necesita una estructura que sostenga la atención 60+ segundos. No es un short estirado.

### Estructura del guion

#	Sección	Timing	Función
1	Hook	0-5s	Parar el scroll. Usar especificidad extrema.
2	Señal de persona	5-12s	Establecer credibilidad con lenguaje de experiencia real. Frases que un marketer nunca escribiría.
3	Amplificación del dolor	12-25s	Nombrar consecuencias específicas, alternativas fallidas que ya probó, sentarse en el peso del problema.
4	Puente de mecanismo	25-35s	Explicar por qué los approaches estándar fallaron. Validar la experiencia del viewer.
5	Producto + prueba	35-55s	Producto como descubrimiento, no como anuncio. 2-3 puntos de prueba con números, timeframes, antes/después.
6	CTA	55-60s+	Conclusión natural de la historia, no interrupción. Energía más calma y conversacional.

### Reglas del guion

Leer en voz alta el guion completo antes de producir. Si trabás en alguna parte, se reescribe.
Si suena "a marca", se reescribe.
Si una persona real no usaría esa frase, se reescribe.
Para videos 60s+: considerar herramienta de voz dedicada para el voiceover.

Paso 3: Producir shot-by-shot

No renderices el video completo de una. Cada toma se genera por separado y se ensambla después.

### Por cada toma del shot list

Seleccioná la referencia de ángulo correcta del set multi-ángulo
Si la toma comparte entorno con otras, usá la referencia de escena común
Escribí el prompt enfocado para esta toma específica:
Incluí las especificaciones técnicas fijas en todo prompt:

### Ventajas de shot-by-shot

Usás el ángulo correcto para cada toma (no le pedís al modelo que invente)
Regenerás tomas individuales que no pasan QC sin rehacer todo
Audio sync más limpio (cada toma es una unidad enfocada)

Paso 4: Quality check por toma

Cada toma se evalúa contra 6 criterios. Los primeros 4 son estándar, los últimos 2 son específicos de longform.

### QC estándar (4 puntos)

Realismo de movimiento — ¿el movimiento es fluido y natural?
Renderizado de piel — ¿hay textura, poros, micro-imperfecciones?
Sincronización de audio — ¿la boca coincide con la voz?
Test de persona real (2s) — ¿parece humano en los primeros 2 segundos?

### QC específico longform (2 puntos adicionales)

Consistencia de personaje — ¿este personaje matchea las tomas anteriores? ¿Cambió edad, pelo, estructura facial, tono de piel?
Continuidad de registro vocal — ¿la energía y pacing de la voz matchean las tomas adyacentes?

Regla: Si falla #5 o #6, se regenera la toma con la referencia de personaje con más peso. Estos checks son los que hacen que longform funcione.

Paso 5: Capa de audio

El audio es donde más se cae el longform AI UGC. A más duración, más se notan los errores.

### Audio nativo (30-45s)

Para videos de 30-45 segundos, el audio nativo suele alcanzar si:

Especificás arco emocional para el audio en el prompt (no solo para lo visual): cálido al abrir → construye en la sección de dolor → medido en el puente → relajado y convincente en el cierre
Marcás pausas deliberadas en el guion (los humanos no hacemos pausas uniformes)
Hacés limpieza de audio en post: eliminar silencios muertos, ajustar pacing, verificar energía consistente

### Herramienta de voz dedicada (60s+)

Para videos de 60+ segundos donde el audio es el eje de la retención:

Generar voiceover en herramienta dedicada (control granular de variación emocional, pacing por palabra, ritmo de respiración)
Correr el video en modo lip-sync contra ese voiceover

Costo adicional: 30-45 minutos extra. Solo para contenido high-stakes.

Paso 6: Assembly final y post-producción

### Continuity pass (antes del export final)

Chequeo	Qué buscar
Continuidad de iluminación	¿Toma 1 tiene luz cálida de mañana y toma 2 luz fría de tarde? → inconsistencia temporal
Continuidad emocional	¿El estado emocional al final de una toma es compatible con el inicio de la siguiente?
Continuidad de audio	¿La energía vocal al final de una toma matchea el inicio de la siguiente?

### Captions

Misma estética que Instagram Stories (texto dinámico, no bloques uniformes)
Palabras clave con énfasis visual (sirve como accesibilidad y ritmo visual)
Distribuir según pacing del voiceover, no en bloques uniformes

### Sound-off check

Crítico: Ver el video completo sin sonido antes de deployar.

El 50-80% de viewers lo ven sin sonido inicialmente. Si lo visual solo no sostiene la atención, el audio no importa — el viewer scrollea antes de que empiece.

Verifier Checklist

[ ] Set multi-ángulo generado (4 ángulos, consistencia facial verificada)
[ ] Guion leído en voz alta, sin trabas, sin frases "de marca"
[ ] Todas las tomas generadas shot-by-shot (no render único)
[ ] QC de 6 puntos pasado en cada toma
[ ] Continuity pass: iluminación, emoción, audio consistentes entre tomas
[ ] Captions con énfasis visual en keywords
[ ] Sound-off check aprobado (sostiene atención sin audio)
[ ] Audio: nativo para 30-45s, herramienta dedicada para 60s+

Troubleshooting

Síntoma	Causa probable	Solución
Personaje cambia entre tomas	No usaste referencias multi-ángulo	Regenerar set multi-ángulo (Paso 1), regenerar tomas con referencia correcta
Voz suena robótica después de 15s	Audio nativo sin arco emocional especificado	Agregar emotional arc spec al prompt de audio (Paso 5)
Viewer dropea en los primeros 5s	Hook débil o genérico	Reescribir hook con especificidad extrema (número, nombre, situación concreta)
Video "se siente AI" aunque cada toma esté bien	Inconsistencias acumuladas entre tomas	Revisar continuity pass (Paso 6), regenerar tomas que rompan coherencia
Costo se dispara	Demasiadas regeneraciones sin ajustar prompt	Mejorar prompts iniciales, ajustar peso de referencia de personaje
Audio y video desincronizados en tomas largas	Native audio sync se degrada en duración	Usar herramienta de voz dedicada + lip-sync mode (Paso 5)

Mantenimiento

Rotación de referencias: Cada 2-3 semanas, regenerar el set multi-ángulo con modelos actualizados
Biblioteca de referencias: Acumular personajes, escenas y ángulos como assets reutilizables
Model routing: Probar periódicamente Seedance vs Kling vs WAN para cada tipo de toma — lo que funciona hoy puede degradarse mañana
Costo tracking: Llevar registro de costo por video. Si supera USD 3, revisar qué está disparando regeneraciones

Referencias

Guía original: [How to Create Realistic Longform AI UGC Videos](https://x.com/adriansolarzz/status/2061244589844082788) por Adrian Solarz
Plataformas: Replicate, AtlasCloud, fal.ai (generación con keys propias)
Modelos de video: Seedance, Kling, WAN
Triage ADMP: ADMP-20260601-001

SOP generado por Hermes Agent · ADMP Output System · Junio 2026

— Ariel Di Stefano