Sora, o Modelos de Generación de Video como Simuladores del Mundo

El nuevo modelo presentado por OpenAI ayer, Sora, no deja de dar que hablar. No hay duda de que es un antes y un despues en el panorama audioviual. Recordemos que Sora es un generador de video con inteligencia artificial pero… ¿es solo eso? Hoy OpenAI ha revelado nuevas caracteristicas del mismo asi que vamos a repasarlas por que son alucinantes.

Fundamentos de Sora: Un Paso Hacia la Simulación Generalista

Los modelos generativos han recorrido un largo camino desde las primeras redes recurrentes y los modelos adversarios generativos hasta los transformers autoregresivos y los modelos de difusión. Estos enfoques se han centrado tradicionalmente en datos visuales específicos, limitándose a videos cortos o de tamaño fijo. Sora rompe estas barreras, generando videos e imágenes que abarcan una amplia gama de duraciones, proporciones y resoluciones, marcando un hito en la generación de contenido visual generalista.

Transformando Datos Visuales en Parches

Inspirados por el éxito de los modelos de lenguaje de gran tamaño, que se entrenan en datos a escala de Internet, OpenAI ha adaptado una estrategia similar para los datos visuales. Sora utiliza parches visuales, una representación que ha demostrado ser efectiva y escalable para el entrenamiento de modelos generativos en una diversidad de videos e imágenes. Al convertir videos en una serie de parches en el espacio-tiempo, Sora puede manejar datos visuales de manera más flexible y eficiente.

Compresión y Generación en Espacio Latente

El proceso comienza con la compresión de videos a un espacio latente de menor dimensión, seguido por la descomposición de esta representación en parches en el espacio-tiempo. Estos parches actúan como tokens para el transformador, permitiendo a Sora entrenarse en videos e imágenes de variadas resoluciones y duraciones. La generación de contenido se realiza en este espacio latente comprimido, con un modelo decodificador que traduce los latentes generados de vuelta al espacio de píxeles.

Escalando Transformers para la Generación de Video

Sora se basa en la arquitectura de transformers y modelos de difusión, demostrando que estos enfoques escalan eficazmente para la generación de video. La calidad de los videos generados mejora significativamente con el aumento del cómputo durante el entrenamiento, lo que subraya el potencial de escalabilidad de estos modelos.

Base compute
4x compute
16x compute

Flexibilidad y Calidad Mejoradas

A diferencia de métodos anteriores, Sora entrena con datos en su tamaño nativo, lo que permite una mayor flexibilidad en la generación de contenido para diferentes dispositivos y formatos. Este enfoque mejora notablemente la composición y el encuadre de los videos, permitiendo a Sora crear videos con aspectos más naturales y atractivos.

Entendimiento del Lenguaje y Generación Basada en Prompts

La capacidad de Sora para generar videos de alta calidad que sigan fielmente las indicaciones de los usuarios es en parte gracias a su entrenamiento con descripciones de video altamente detalladas. Esto, junto con la técnica de reetiquetado y la utilización de modelos de lenguaje para expandir los prompts cortos, permite una generación de contenido visual que es coherente y fiel a las solicitudes textuales.

A woman wearing blue jeans and a white t-shirt taking a pleasant stroll in Antarctica during a winter storm.

Capacidad de Sora para Interactuar con Imágenes y Videos

Al igual que otros modelos de generación de video, Sora tiene capacidad para ser estimulado no solo con texto, sino también con imágenes y videos existentes. Esta versatilidad abre un abanico de posibilidades en la edición de imágenes y videos, desde la creación de videos en bucle perfectos hasta la animación de imágenes estáticas y la extensión de videos en el tiempo.

Animación de Imágenes DALL·E

Sora demuestra su capacidad para generar videos a partir de una imagen y un prompt dados como entrada.

In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.
A Shiba Inu dog wearing a beret and black turtleneck
A Shiba Inu dog wearing a beret and black turtleneck

Extensión de Videos Generados

Una de las cosas más espectaculares para mi. Más allá de la animación, Sora puede extender videos generados hacia adelante o hacia atrás en el tiempo, un proceso que permite la creación de loops infinitos a partir de un segmento de video. Esta capacidad para manipular la temporalidad de los videos abre nuevas dimensiones en la creación de contenido visual.

Edición de Video a Video

Aplicando técnicas como SDEdit, Sora puede transformar el estilo y el entorno de los videos de entrada sin necesidad de entrenamiento adicional. Demostrando la capacidad de Sora para interpretar y manipular contextos visuales complejos. Mucho más realista que otros modelos.

Input video

Generación de Imágenes

Además de los videos, Sora puede generar imágenes estáticas de alta resolución. Este proceso se logra organizando parches de ruido gaussiano en una cuadrícula espacial, lo que permite la creación de imágenes detalladas y realistas de diversos temas, desde retratos hasta paisajes y escenas submarinas vibrantes. Curioso que Sora compita con Dall-E en esto (ganando por cierto).

Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
Vibrant coral reef teeming with colorful fish and sea creatures
Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details
A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2

Capacidades Emergentes y Simulación

Al entrenar a Sora a gran escala, Openai ha observado el surgimiento de capacidades fascinantes que sugieren su potencial como simulador del mundo físico y digital. Estas capacidades emergen sin sesgos inductivos explícitos para 3D u objetos, y son testimonio del poder de la escala en la modelización.

Consistencia en 3D y Coherencia Temporal

Sora puede generar videos con movimiento de cámara dinámico, manteniendo una coherencia tridimensional y temporal incluso en videos de larga duración. Esta habilidad para modelar dependencias a corto y largo plazo permite a Sora mantener la persistencia de personajes y objetos a lo largo de secuencias complejas.

Interacción con el Mundo y Simulación de Mundos Digitales

Las simulaciones de Sora incluyen acciones simples que afectan el estado del mundo, como dejar marcas en un lienzo o mordiscos en una hamburguesa.

<

Notablemente, Sora también puede simular procesos artificiales, como videojuegos, controlando y renderizando dinámicas de juego en alta fidelidad. Curiosamente aquí no tienen miedo a mostrar videos generados de Minecraft (quizas por que son de Microsoft).

Discusión y Limitaciones

A pesar de sus impresionantes capacidades, Sora no está exento de limitaciones. La modelización precisa de la física en interacciones complejas y la coherencia en muestras de larga duración son desafíos persistentes. Además, ciertas interacciones no siempre producen cambios de estado correctos en los objetos.

En OpenAI piensan que las capacidades actuales de Sora demuestran el potencial de los modelos de video para desarrollar simuladores altamente capaces del mundo físico y digital. La superación de sus limitaciones actuales y la exploración de su potencial completo requerirán un enfoque continuo en la escala y la innovación técnica.

Sora representa un paso significativo hacia el desarrollo de simuladores generales que pueden capturar con fidelidad y creatividad el mundo en que vivimos. Su evolución continuará ampliando los horizontes de lo que es posible en la generación de contenido visual y la simulación del mundo real y digital.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies