Noticias

Google presenta Imagen, su nueva IA para la creación de imágenes de gran realismo

Publicado el

6 octubre, 2022

por

Google presenta Imagen, su nueva IA para la creación de imágenes de gran realismo

Google acaba de presentar Imagen Video, un modelo basado en inteligencia artificial capaz de crear videos HD de gran realismo a partir de palabras o breves descripciones. Con el objetivo, también, de superar el Make-A-Video de Meta, el generador de IA de Google es capaz incluso de emitir videos HD de 1280×768 a 24 fps.

Aunque de momento Imagen Video se encuentra en una fase de investigación, las expectativas son altamente positivas por la compañía. No solo es ligeramente superior a la opción de Meta, sino que ha aparecido en tan solo cinco meses lo que evidencia la rapidez y la importancia que tiene Imagen Video para la compañía en estos momentos.

Características principales de Imagen de Google

Para conseguirlo, Imagen utiliza el transformador de transferencia de texto a texto (T5). Se trata de un modelo presentado en 2020, donde en un principio se basaba en unificar entradas y salidas de cadenas de texto. El modelo ya ha evolucionado y es capaz de realizar la síntesis de imágenes.

Otra de las peculiaridades de Imagen Video es que es capaz de ofrecer resultados con un nivel de detalle más preciso que lo que hacen otros sistemas de conversión de texto como pueden ser DALL-E 2 y VQ-GAN+CLIP.

La tecnología que usa este modelo puede incluso escalar imágenes a 256 x 256 píxeles y después a 1.024 x 1.024 píxeles, por lo que genera un modelo de difusión en cascada. A diferente de la IA que en su origen producía imágenes de 64 x 64 píxeles y luego las escalaba.

En el proyecto, también destacan otros puntos importantes de la investigación de imagen llevada a cabo para desarrollar esta IA. Como, por ejemplo, el desarrollo de la nueva arquitectura propia Efficient U-Net, que es más eficiente en computación y en memoria.

Los datos de entrenamiento para Google Imagen Video provienen del conjunto de datos de imagen-texto LAION-400M disponibles públicamente y «14 millones de pares de video-texto y 60 millones de pares de imagen-texto», según Google.

Imagen Video también ha sido “entrenado” para filtrar contenido sexualmente explícito y violento, así como estereotipos sociales y sesgos culturales. Por ello Google ha querido destacar que, de momento, este modelo no será de código abierto ni accesible a nivel global para evitar un uso indebido por parte de los usuarios. Y que, además, también quedan muchos aspectos por mejorar.

Hace apenas unas semanas, la empresa de investigación en IA sin ánimo de lucro OpenAI presentó DALL-E. Se trata de un nuevo sistema de IA capaz también de convertir las palabras en imágenes realistas. Así como editar fotografías en base a una petición escrita y eliminar elementos como sombras, reflejos y texturas.