sábado, 24 de febrero de 2024

Qué es Sora, cómo funciona, y qué se puede hacer con la inteligencia artificial para generar vídeos de OpenAI


Sora, la nueva inteligencia artificial que puede cambiar al video para siempre
WhatsappFacebookXCopiar dirección URL


Por Pablo Hamada

OpenAI y Google están compitiendo por quién ofrece el asistente de texto con inteligencia artificial más potente. En los últimos meses, ambas compañías presentaron avances de sus modelos y cada una asegura que su propuesta es más rápida, más efectiva y más segura. Por eso, las especulaciones de la industria apostaban a que la compañía de Salt Altman estaba guardando un as bajo la manga para tomar ventaja, al menos por un tiempo.
Sin embargo, ni los más conocedores de la empresa esperaban lo que OpenAI lanzó la semana pasada. Se trata de Sora, un revolucionario modelo de texto a video que está pensado para la creación de contenido audiovisual. Es decir, un producto que crea video desde cero a partir de instrucciones textuales. Lo que hasta ahora presentó la empresa bastó para causar un gran impacto por la calidad de sus resultados y por la simpleza que parece tener esta plataforma. Se observan videos de animales, personas, vehículos hiperrealistas, con una fluidez de movimientos increíbles y un nivel de detalle inédito. Por eso, todos están hablando de Sora y de cómo puede llegar a cambiar la industria del video en los próximos años o meses.
Si bien Sora todavía no está disponible para todos los usuarios, se espera que sea un producto de calidad y efectivo. Así ha demostrado ser ChatGPT, el buque insignia de OpenAI que aceleró la carrera de la inteligencia artificial hace poco más de un año. Si ya nos enseñó cómo podíamos obtener respuestas, resúmenes y nuevas ideas a partir del texto, Sora promete correr las barreras de la imaginación al crear videos de hasta un minuto de duración. La calidad extrema de sus ejemplos no se parecen en nada a los videos que estaban creando otros productos. Esto parece cine y todo depende de las instrucciones del usuarios.
El gran impacto que puede producir Sora es tal que su disponibilidad por ahora está disponible para selectos grupos de usuarios que lo están evaluando y analizando posibles riesgos de su uso. A ellos se suman, según detalla la compañía en su sitio web, un selecto grupo de profesionales creativos, como artistas visuales, diseñadores y cineastas, que se proponen refinar y mejorar el modelo. En resumen, Sora se presenta como una propuesta que transformará cómo pensamos nuestras narrativas audiovisuales.
El asombro por Sora emerge casi en sintonía con la inquietud por sus capacidades. Y solo basta con preguntarse por tres aspectos en los que seguramente impactará este producto cuando comience a estar al alcance de cualquier usuario. ¿En primer lugar, será realmente una instancia democratizadora del video? Hasta ahora, la capacidad de producir este formato audiovisual estaba resguardado para quien contara con los dispositivos tecnológicos y saberes necesarios para producir, filmar y editar un video. Si bien estas distancias se fueron reduciendo en los últimos años, todavía existe una brecha gigante entre la posibilidad de expresarse a través de las palabras o un dibujo y el video. Toda esa complejidad parece estar en manos de profesionales, pero tal como lo muestran los ejemplos publicados en estos días, Sora podrá simplificar la tarea de llevar una idea en palabras a una imagen en movimiento. Al mismo tiempo, este acceso masivo también podría traer grandes problemas en materia de desinformación, falsificación de contenido y consideraciones éticas de las que ya hemos sido testigos con las herramientas más rústicas que existen en la actualidad.
¿En segundo lugar, qué pasará justamente con la industria audiovisual? Sora también puede verse como una amenaza para los profesionales del video y el cine, actores que durante años se perfeccionaron para tener una capacidad técnica o creativa. La eliminación de procesos mecánicos o rutinarios con la inteligencia artificial ya está en debate y hasta en el epicentro del cine se rebelaron contra la creación de contenido para guiones a partir de esta tecnología. ¿Qué pasará entonces cuando se abra esta caja de pandora que parece ser Sora?
¿Finalmente, cuál será el impacto social que podría crear un producto como Sora? Desde un punto de vista más optimista, los procesos creativos y educativos podrían transformarse radicalmente a partir de la generación de videos personalizados y caseros. Se podrían crear simulaciones a medida y procesos inmersivos para estudiar cualquier disciplina. Aunque para este estadío falta demasiado, las evaluaciones y controles que hoy está haciendo OpenAI podrían acelerar estas instancias y en los próximos meses quizás seamos testigos de una nueva manera en la que representamos y creamos el mundo en el que vivimos.

Qué es Sora, cómo funciona, y qué se puede hacer con la inteligencia artificial para generar vídeos de OpenAI
OpenAI nos vuelve a dejar a todos con la boca abierta con su nueva inteligencia artificial, y te lo explicamos todo sobre ella.

Yúbal Fernández
Vamos a explicarte qué es y qué puede hacer Sora, el nuevo sistema de inteligencia artificial creado por OpenAI. Se trata de una nueva revolución de inteligencia artificial que viene de la mano de los creadores de ChatGPT y DALL-E, que vuelven a innovar en el sector.
Así como ChatGPT genera texto y DALL-E genera imágenes a partir de texto, lo que hace Sora es generar vídeos a partir de nuestros comandos textuales. De momento, este modelo no es accesible para todos, solo para investigadores de la empresa, pero promete ser la próxima gran revolución.
Qué es Sora y cómo funciona
Sora es un sistema de inteligencia artificial creado por OpenAI, la misma empresa que ha creado otros sistemas conocidos como ChatGPT o DALL-E. En este caso, es una IA que genera vídeos a partir de texto, de forma que tú le escribes lo que quieres ver mediante un prompt o comando textual, y la generará de la nada.
Esta inteligencia artificial es muy similar a los modelos que crean imágenes a partir de texto, y que a la vez se basa en parte de la tecnología de modelos de lenguaje como GPT. Este sistema es capaz de entender lo que le pides con un lenguaje natural, ya que ha sido entrenada para entender la manera en las que solemos hablar y cómo nos expresamos para pedir o preguntar algo.
Después de entender lo que le has pedido en un prompt, Sora podrá generar vídeos en los que se vea en movimiento lo que le has pedido, lo que supone un enorme paso más con respecto a simplemente crear imágenes.
Esto lo ha conseguido porque es un modelo entrenado con una enorme biblioteca de vídeos, de forma que sabe reconocer movimientos, descripciones y cualquier cosa que le pidas, y será capaz de recrearlos en vídeo. Sabrá a lo que te refieres cuando le hables de tipos de personas, de vestimenta, de accesorios o de efectos visuales.
Qué puedes hacer con Sora


Sora es capaz de generar escenas complejas en las que aparezcan varios personajes, y también puedes especificar el tipo de movimiento que quieras que realice. También puedes detallar el entorno, y Sora sabrá interpretar lo que le dices y cómo son las cosas en el mundo físico.
Mira por ejemplo el vídeo que te vamos a enseñar a continuación. En él, se ha utilizado un prompt en el que se le ha dicho que cree a una mujer elegante caminando por una calle de Tokyo llena de neones, y con señalizaciones urbanas. En el prompt que se utilizó, también se describió la vestimenta al detalle, así como sus gafas de sol o pintalabios.
Por lo tanto, es capaz de generar con precisión a la persona y de reflejar cómo le has pedido que esté vestida. Además, también refleja otros detalles que se le han pedido como que la calle esté húmeda y haya reflejos con efecto espejo. A continuación te dejamos el vídeo, y debajo de él la traducción del prompt utilizado.
"Una mujer elegante camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean".
Esto te puede servir como un ejemplo para que veas las calidades y la fiabilidad a la hora de reflejar lo que le has pedido. También entiende contextos, y al ser en Tokyo ha hecho que la mujer tenga rasgos orientales. Además de todo esto, Sora también te permite especificar rasgos como su edad o su vestimenta, o algunos otros atributos físicos y los movimientos que está realizando.

Como suele ser habitual, las capacidades de Sora también dependerán de la habilidad de cada uno para crear prompts complejos en los que hacer las mejores descripciones con las que obtener resultados a medida. Cuanto más detallada sea la descripción del prompt, más detallada será la imagen que se muestre con respecto a lo que quieras obtener.
De momento, este modelo de inteligencia artificial está en una fase temprana de su desarrollo, y genera vídeos de hasta 60 segundos. Además, la empresa advierte que puede tener algunos problemas a la hora de recrear con exactitud algunas físicas.
Cuándo llegará Sora
Como hemos dicho, de momento este modelo está en una fase de prueba, y solo pueden acceder investigadores de OpenAI. Por lo tanto, está todavía limitada a pruebas de laboratorio, con las que se está probando su funcionamiento.
Aquí, OpenAI asegura que Sora se acabará incorporando al catálogo de productos de la empresa, pero todavía no ha dado ninguna fecha concreta para ello. De momento, dicen que primero deben tomar medidas para garantizar la seguridad de los usuarios.
Xataka Basics | Detector de ChatGPT: 9 servicios y apps para saber si un texto ha sido generado por la IA de OpenAI

http://indecquetrabajaiii.blogspot.com.ar/. INDECQUETRABAJA

No hay comentarios.:

Publicar un comentario

Nota: sólo los miembros de este blog pueden publicar comentarios.