¡Increíble! Así es Vasa-1, la nueva herramienta de Microsoft que hace cantar a las fotos de forma muy realista

Permite animar cualquier imagen de un rostro para hacerlo hablar o cantar; podría tener un rol vital en los asistentes digitales futuros; la compañía no liberó su uso por temor a que se aplique para deepfakes

22 de abril de 2024
11:58
2 minutos de lectura'

La Mona Lisa animada por Vasa-1

Microsoft ha presentado su trabajo en un nuevo modelo de inteligencia artificial (IA) que dota de expresividad a los avatares realistas mientras aparecen hablando en videos generados a partir de una imagen estática y un clip de voz.

VASA es la propuesta de Microsoft para generar rostros virtuales que hablan y gesticulan con gran expresividad y realismo en tiempo real, en las que el movimiento de los labios está “exquisitamente sincronizado con el audio”.

Los rostros que simulan ser personas reales han sido generados por herramientas de IA StyleGAN2 y DALL·E-3, pero ninguna de ellas se corresponde a una identidad real, como matiza la compañía tecnológica.

Así funciona la herramienta, animando rostros generados por IA con audios reales

Vasa-1, la herramienta de IA capaz de animar cualquier imagen

Este realismo se refuerza con la sincronización y “el gran espectro de emociones y matices faciales” que combina con el movimiento natural de la cabeza, como explica en su blog oficial.

VASA requiere solo una imagen estática y un fragmento de audio con voz para crear videos con un tamaño de 512 x 512 píxeles a 45 fotogramas por segundos en el modo ‘offline’, aunque ‘online’ soporta 40fps con una latencia de 170ms. La compañía lo ha evaluado con una computadora de escritorio equipado con una GPU NVIDIA RTX 4090.

Microsoft ha asegurado que no planea lanzar una demo de esta herramienta dado los potenciales riesgos que tiene para su mal uso en la suplantación de personas reales.

A partir de una imagen estática y un audio, el sistema puede generar un video con el rostro animado, sincronizando las expresiones con lo que sugiere el sonido

Inteligencia artificial

The Trust Project

Cuánto se paga por entrenar a una IA y quién puede postularse

Desde la Argentina. Cuánto se paga por entrenar a una IA y quién puede postularse

En medio de una ola de leyes de seguridad infantil en línea, la tecnología de verificación de edad alcanza la madurez

Cambios. En medio de una ola de leyes de seguridad infantil en línea, la tecnología de verificación de edad alcanza la madurez

Gemini se integra aún más con Google Drive, Docs, Hojas de cálculo y Presentaciones

Nuevas funciones de IA. Gemini se integra aún más con Google Drive, Docs, Hojas de cálculo y Presentaciones