EMO (Emotive Portrait Alive) es una nueva IA generativa investigada por el Instituto de Computación Inteligente (IIC) de Alibaba con la capacidad de transformar "mágicamente" cualquier imagen en habla y canto de manera realista.
En otras palabras, la IA de Alibaba puede convertir una imagen de referencia estática y un audio de voz en un vídeo que puede hablar y cantar con expresiones naturales.
Las IA anteriores solo transformaban la boca y parte de la cara, mientras que EMO puede crear expresiones faciales, expresiones de boca naturales, sincronización precisa de labios, mover cejas, fruncir el ceño o incluso balancearse al ritmo de la música.
Alibaba ha publicado algunos vídeos que muestran cómo las imágenes se convertirán en vídeos y cantarán canciones importadas sobre la marcha. EMO admite inglés, chino y muchos otros idiomas.
Alibaba reveló que para que EMO pueda crear expresiones faciales realistas, fue entrenado con una gran cantidad de datos de imagen, audio y video a través de su propio modelo de difusión llamado Audio2Video.
Para abordar el importante desafío actual del realismo y la expresividad en la generación de videos a partir de imágenes y sonidos, el equipo de investigación se centró en la relación y los matices entre las señales de audio y los movimientos faciales, evitando el vínculo intermedio entre modelos 3D o puntos de referencia faciales, realizando transiciones de fotogramas sin problemas y preservando la consistencia en el video.
Alibaba no ha revelado cuándo lanzará esta IA al público, pero ha publicado los datos de EMO en Github y los artículos de investigación publicados en ArXiv.