Google presenta VideoPoet, el generador de videos IA más potente e impresionante - El IAS

El mundo audiovisual esta cambiando gracias a la inteligencia artificial, herramientas como Pika, Stable Video Diffusion o Gen 1 y Gen 2 de Runway nos estan dando un vistazo del inmenso potencial que se nos viene encima, sin embargo, hoy vamos a hablar sobre una novedad muy emocionante que se acaba de presentar: el proyecto VideoPoet de Google, el generador de videos IA más potente presentado hasta la fecha. Este proyecto fue presentado el 19 de diciembre de 2023 por Dan Kondratyuk y David Ross, ingenieros de software en Google Research. Prepárate, porque lo que viene es fascinante.

VideoPoet es un modelo de lenguaje de gran tamaño (LLM) diseñado para generar videos. Puede realizar una variedad de tareas, como convertir texto en video, imagen en video, estilizar videos, y hasta generar audio a partir de videos. ¿Lo más interesante? Todo esto se hace dentro de un único modelo de lenguaje, sin necesidad de componentes entrenados por separado.

¿Qué lo hace especial? La mayoría de los modelos de generación de video actuales son basados en difusión, pero VideoPoet aprovecha las capacidades excepcionales de aprendizaje de los LLMs en diferentes modalidades como lenguaje, código y audio. Esto permite abordar el desafío de la generación de video, que hasta ahora había sido limitada en cuanto a la coherencia y calidad de los movimientos grandes.

VideoPoet utiliza tokenizadores para convertir videos e imágenes en secuencias de tokens discretos, que después son procesados por el modelo autoregresivo del LLM. Esto permite una amplia gama de generaciones y ediciones de video.

Ejemplos y Capacidades

Text-to-Video: VideoPoet puede generar videos de longitud variable con distintos movimientos y estilos basados en el contenido del texto.

Ejemplo: «Un caballo galopando por la ‘Noche estrellada’ de Van-Gogh»

Image-to-Video: Anima imágenes estáticas con movimientos guiados por prompts de texto.

Ejemplo:

Video Stylization: Predecir el flujo óptico y la información de profundidad para luego estilizar el video.

Ejemplo:

Video-to-Audio: Generar audio a partir de clips de video.

Control y Edición de Video Una de las características más impresionantes de VideoPoet es su capacidad para editar y controlar videos de manera interactiva, manipulando objetos y movimientos dentro de los clips.

Evaluación y Resultados En comparación con otros modelos, VideoPoet ha demostrado ser preferido en términos de fidelidad de texto y la interesante calidad de los movimientos en los videos. Esto subraya el potencial de los LLMs en la generación de video.

¿Cómo la utilizo?
Como es típico en las etapas iniciales de los desarrollos de Google, por ahora VideoPoet parece ser de uso exclusivo interno. Sin embargo, hay buenas razones para mantenerse optimista. Basándonos en la trayectoria de Google con proyectos anteriores como Imagen, su generador de imágenes, es probable que eventualmente integren VideoPoet con Gemini en su plataforma Bard.

Conclusión

VideoPoet no solo es una muestra de la calidad de generación de video que se puede lograr con LLMs, sino también un vistazo emocionante a lo que podría ser el futuro de la generación de contenido multimedia. Este proyecto abre puertas a una nueva era de creación de contenido audiovisual, donde la imaginación es el único límite.