Creá videos faceless en YouTube con AI: el método que generó $40K–90K en 2 meses

Un tipo hizo 8M de views en 2 meses con videos faceless y AI. Stack 100% free tier.

2026-07-01

El stack

Todo corre en tier free:

  • Claude (plan gratis) — guión + prompts de imagen + metadata
  • ElevenLabs (plan gratis) — voz en off, ~10k créditos/mes (unas cuentas free)
  • Una herramienta de transcripción con timestamps — para encontrar las pausas en el audio (modo rápido)
  • Google Flow + Nano Banana 2 — generación de imágenes
  • Cualquier editor de video — para ensamblar

El principio central: voz en off primero

Esta es la regla sobre la que se construye todo el workflow. Interiorizala antes de tocar cualquier herramienta.

La mayoría construye en este orden: guión → prompts de imagen → generar escenas → grabar voz → sincronizar todo al final.

Ese orden es el problema.

Cuando las imágenes van primero y la voz después, estás forzando dos cosas que no fueron hechas la una para la otra. El resultado se siente fuera de lugar. Los espectadores no saben nombrar por qué, simplemente se van.

Dalo vuelta: voz en off primero, escenas después, siempre.

El motivo: una voz en off terminada tiene pausas naturales entre oraciones. Esas pausas son tus puntos de corte. Cada escena empieza y termina en una pausa. Cada corte nace del ritmo de la voz, no de una decisión adivinada después.

Ese ritmo —no el arte, no las herramientas— es lo que retiene al espectador.

Cada paso de abajo existe para servir a este orden.

Paso 1 — Escribir el guión (Claude)

Abrí Claude en el plan free y dale este prompt:

> [Link al prompt de Claude — ver recursos]

El prompt devuelve múltiples ángulos virales, no uno solo. Elegí el más fuerte.

Qué verificar: el guión debe sonar hablado, no escrito.

Paso 2 — Generar la voz en off (ElevenLabs)

En este paso vamos a crear la base del video: la voz. Que vamos a usar para estructurar las imágenes y el video completo.

Andá a https://elevenlabs.io/

  • Registrate y andá a la pestaña "Voices", agregá la voz destacada en el screenshot a tu librería
  • Andá a la pestaña "Text to Speech", pegá tu texto (hasta 5.000 caracteres; si es más largo, pedile a Claude que lo acorte), asegurate de que la voz correcta esté seleccionada, y generá el audio

Paso 3 — Encontrar las pausas (transcripción)

Para generar imágenes para cada parte del texto y para que Claude entienda todas las partes del video, necesitás crear marcos de tiempo para la voz.

Para esto usamos https://foziscribe.ai/

Con el plan free obtenés 10 créditos, suficiente para dos transcripciones de 3 a 5 minutos en modo rápido.

Andá al sitio, creá una cuenta, y en la pestaña "Transcribe", subí tu archivo mp3 con el audio y hacé clic en "Transcribe Audio".

Descargá el archivo de texto y mandalo al chat con Claude donde generaste el texto original.

Claude va a empezar a crear prompts para todos los frames que vas a necesitar.

Claude genera prompts en batches. Decile que siga, y vas a recibir un archivo de texto con todos los prompts cuando el proceso termine.

Paso 4 — Generar las escenas (Google Flow)

Abrí flow.google → nuevo proyecto → agent mode off → image mode on → 16:9 → un output por prompt → modelo Nano Banana 2 (resultados fuertes sin quemar límites).

Generar 100+ escenas a mano me lleva como 40 minutos, pero podés usar una extensión de Chrome de bulk-generation gratuita hecha para Flow:

> [Link a extensión — investigar antes de usar]

Por conveniencia, también renombré cada foto para reflejar el tiempo en que se usa, eso me llevó unos 30 minutos.

Una vez que te aseguraste de que todas las fotos salieron bien, descargá el proyecto completo desde Google Flow (regenerá las fotos malas).

Paso 5 — Editar al ritmo

Vas a necesitar cualquier editor de video.

Por ejemplo, yo usé Filmora.

Es un programa pago, así que o comprás una suscripción, te las arreglás para sacar la marca de agua, o usás otro editor.

Importá la pista de voz y la carpeta completa con los materiales.

Después colocá las imágenes en sus respectivos marcos de tiempo. Es simple: insertar una imagen → mover al segundo deseado → recortar la imagen → insertar la siguiente.

Paso 6 — Empaquetar y publicar (Claude)

De vuelta en Claude, generá la metadata: título, descripción y tags ajustados a tu video.

Después pedí cinco prompts de thumbnails con alto CTR, pasalos por Google Flow, y elegí el más fuerte.

Paso 7 — Publicar (YouTube)

Subí a YouTube, meté la metadata, poné el thumbnail, publicá.

Errores comunes

  • Generar las imágenes antes que la voz en off: el error más grande. Perdés el ritmo y no lo recuperás sincronizando después
  • Usar el modo rápido de transcripción: timestamps imprecisos = cortes imprecisos
  • Apurar la edición: el ensamblado es donde el formato vive o muere
  • Una voz robótica: la voz lleva todo el video. Elegí una que suene humana

Resultado

Terminás con un video como este. Por supuesto, todavía hay que encontrar el editor correcto o resolver cómo sacar la marca de agua de Filmora.

Así que espero sus sugerencias en los comentarios.

— Ariel Di Stefano