SOP: Cómo crear videos faceless stickman en YouTube con AI (Stack Free)

De guión a video publicado en 2-3 horas sin pagar un peso en herramientas.

2026-07-01

¿Para qué sirve este SOP?

Este procedimiento te permite crear videos largos animados estilo stickman/doodle para YouTube usando solo herramientas AI gratuitas. El mismo stack que canales que acumulan millones de visitas en meses.

No necesitas: diseño gráfico, skills de edición de video, equipo, ni pagar suscripciones.

Prerrequisitos

RecursoDetalle
Cuenta Claude (free)https://claude.ai
Cuenta ElevenLabs (free)https://elevenlabs.io — ~10.000 créditos/mes
Cuenta Google (para Flow)https://flow.google.com
Cuenta foziscribe.ai (free)https://foziscribe.ai — 10 créditos gratis
Editor de videoFilmora (pago), DaVinci Resolve (free), o CapCut (free)
Navegador ChromePara extensión bulk de Flow

Paso 1: Escribir el guión en Claude

Abrí Claude en el plan free y usá un prompt que genere múltiples ángulos virales para un tema. No te quedes con el primero — elegí el más fuerte.

Checklist del guión: - [ ] Suena a voz hablada, no a texto escrito - [ ] Tiene gancho en los primeros 3 segundos - [ ] Cada párrafo es una escena (cambio visual) - [ ] Extensión: 3-5 minutos hablados (~700-1200 palabras)

Señales de alerta: - Si el guión suena a ensayo académico → pedile a Claude que lo reescriba en tono conversacional - Si no tiene pausas naturales → agregá transiciones

Paso 2: Generar la voz en off en ElevenLabs

Regla de oro: voz en off PRIMERO, escenas DESPUÉS. Este orden es lo que diferencia un video que funciona de uno que no.

  1. Andá a ElevenLabs → Voices → agregá una voz que suene natural (no robótica)
  2. Andá a Text to Speech → pegá el guión (máx 5.000 caracteres por generación)
  3. Si el guión es más largo, dividilo en partes y pedile a Claude que las acorte
  4. Descargá el audio generado (.mp3 o .wav)

Checklist de voz: - [ ] La voz suena humana, no robótica - [ ] Las pausas entre oraciones son naturales - [ ] El ritmo permite cortar entre escenas

Paso 3: Encontrar las pausas con foziscribe.ai

Las pausas de la voz son tus puntos de corte. Cada escena arranca y termina en una pausa.

  1. Subí el audio a foziscribe.ai → Transcribe
  2. Usá modo rápido (los créditos free alcanzan para 2 transcripciones de 3-5 min)
  3. Descargá el archivo de texto con timestamps
  4. Pegá ese archivo en el chat de Claude donde generaste el guión original

Qué hace Claude con esto: va a generar prompts de imagen para cada frame, sincronizados con los timestamps de la voz.

  • Claude genera los prompts en batches. Decile "seguí" hasta que termine.
  • Al final vas a tener un archivo de texto con todos los prompts + sus timestamps.

Checklist de pausas: - [ ] Cada prompt de imagen tiene un timestamp asignado - [ ] Los cortes coinciden con pausas naturales de la voz - [ ] Tenés prompts para todas las escenas del guión

Paso 4: Generar las escenas en Google Flow

  1. Abrí flow.google → New Project
  2. Agent Mode: OFF | Image Mode: ON
  3. Aspect ratio: 16:9
  4. Modelo: Nano Banana 2 (mejor relación calidad/costo)
  5. Un output por prompt
  6. Pega cada prompt y generá la imagen

Optimización de tiempo: - Generar 100+ escenas manual lleva ~40 min - Usá la extensión Chrome Zapi Flow para bulk generation (investigá antes) - Renombrá cada imagen con su timestamp: 01_00:15.png, 02_00:22.png, etc.

Checklist de escenas: - [ ] Todas las imágenes generadas correctamente - [ ] Las imágenes malas fueron regeneradas - [ ] Los nombres de archivo reflejan los timestamps - [ ] Descargaste el proyecto completo

Paso 5: Editar al ritmo de la voz

  1. Importá la pista de voz al editor de video
  2. Importá TODAS las imágenes generadas
  3. Colocá cada imagen en su timestamp correspondiente
  4. Ajustá duración: cada imagen dura hasta el próximo corte
  5. Agregá transiciones suaves entre escenas (crossfade 0.3s)

Errores comunes en edición: | Error | Impacto | Solución | |-------|---------|----------| | Apurar el ensamblado | El video se siente desconectado | Tomate 30 min extra para ajustar cada transición | | Ignorar el ritmo | Viewer se va antes del minuto 1 | Cada corte debe seguir el ritmo natural de la voz | | No sincronizar bien | Audio e imagen no coinciden | Usá los timestamps del archivo de foziscribe |

Paso 6: Empaquetar y generar metadata

De vuelta en Claude, pedí que genere:

  • Título — con palabra clave + promesa de valor + gancho
  • Descripción — 2-3 párrafos con keywords + timestamps + CTA
  • Tags — 10-15 tags relevantes (herramientas, tema, formato)
  • 5 thumbnails con alto CTR — prompts para Google Flow

Para los thumbnails: 1. Pasá los 5 prompts por Google Flow (mismo modelo Nano Banana 2) 2. Elegí el más fuerte visualmente 3. Si es necesario, agregále texto con cualquier editor de imágenes

Paso 7: Publicar en YouTube

  1. Subí el video a YouTube Studio
  2. Pegá el título, descripción y tags
  3. Configurá thumbnail
  4. Elegí categoría (Education, Howto & Style, o Entertainment)
  5. Configurá visibilidad: Público
  6. Publicá

Post-publicación: - Respondé los primeros comentarios (las primeras 2 horas son críticas para el algoritmo) - Compartí en redes sociales - Monitoreá analytics en los primeros 7 días

Mantenimiento del canal

FrecuenciaAcción
Cada videoSeguir este SOP religiosamente
SemanalRevisar analytics: retention, CTR, demografía
QuincenalProbar variaciones: thumbnail style, intro, duración
MensualLimpiar cuentas free (ElevenLabs créditos, foziscribe)

Troubleshooting

ProblemaCausaSolución
Baja retention (<30%)El ritmo visual no sigue a la vozRevisar cortes, la voz manda
CTR bajo (<5%)Thumbnail no enganchaGenerar 10 variantes, testear
Voz robóticaElevenLabs default voiceCambiar voice model, probar voices premade
Imágenes inconsistentesPrompts de Claude muy vagosDar ejemplos concretos en el prompt
Sin views en 48hsFalta metadata SEOOptimizar title + description + tags
Marca de agua FilmoraUsando versión gratuitaMigrar a DaVinci Resolve o CapCut

Stack técnico resumido

` Claude (free) → Guión + prompts de imagen + metadata ElevenLabs (free) → Voz en off (~10k créditos/mes) foziscribe.ai (free)→ Transcripción con timestamps (10 créditos) Google Flow → Generación de imágenes (Nano Banana 2) Editor de video → Ensamblado (DaVinci Resolve / CapCut recomendados) YouTube Studio → Publicación `

— Ariel Di Stefano