A Fondo

Algoritmos que crean imágenes, ¿cómo funcionan?

Publicado el

14 octubre, 2022

por

Las herramientas de Inteligencia Artificial continúan siendo un campo que todavía se está explorando. Pero, ya disponemos de algoritmos que crean imágenes que rompen la barrera de la creatividad que hasta el momento parecía solo pertenecernos a nosotros. Ahora, la IA es capaz de hacer lo mismo, aunque, para ello, debe aprender cómo. Dall-E y Stable Diffusion son algunas plataformas que ya usan estos algoritmos.

Crear imágenes a partir de prompts es viable con Dall-E o Stable Diffusion. El gran abanico de creaciones que ofrecen han sido un éxito en las redes sociales que se han llenado de fotografías que parecen creadas por diseñadores, pero que son el resultado de utilizar estos algoritmos que crean imágenes. Cuadros clásicos que aparecen en situaciones inesperadas o rostros realistas son ejemplos de lo que esta tecnología puede hacer.

¿Cómo funcionan estas plataformas?

Las plataformas que utilizan algoritmos que crean imágenes funcionan de una manera muy particular. Para empezar, han sido entrenadas previamente con unas 5 mil millones de fotografías para que, con todo este material, sean capaces de generar lo que cualquier usuario les pueda solicitar. Cada imagen está asociada a un texto para que, en el momento de teclear “caballo en la luna”, por ejemplo, los resultados variados aparezcan.

Pero esto no es suficiente. Las plataformas que usan algoritmos que crean imágenes utilizan CLIP, un modelo de red neuronal, para aprender a conectar fotos y textos vinculados a un mismo objeto. Lo que hace CLIP es, primero, codificar la imagen – texto para buscar coincidencias. Por ejemplo, para “una foto de un perro” CLIP recopilará todas las fotografías (solo las mejores) en las que este animal se encuentre.

Segundo, CLIP funciona como preentrenamiento para las plataformas que emplean algoritmos que crean imágenes. Por lo que calculará la similitud y también los pares incorrectos de la codificación imagen – texto con el objetivo de minimizar los errores. Una vez se complete el proceso, CLIP ya dará paso a Dall-E o Stable Diffusion para que realicen la búsqueda de imágenes y les ofrezcan las mejores opciones a los usuarios.

La conexión semántica y visual han sido claves en los entrenamientos previos para que los algoritmos que crean imágenes sean eficaces. Si bien el usuario solo tiene que introducir un sencillo texto de lo que quiere obtener, la complejidad que hay detrás de esto es fenomenal. Ahora, sabiendo un poco más sobre el funcionamiento de estas plataformas, ¿cómo se lleva a cabo esa generación de imágenes aleatorias y creativas?

La creación de imágenes modificadas o nuevas

Lo que permite la creación de imágenes nuevas o modificadas (como Batman en la luna o un astronauta haciendo ejercicio por el campo) es utilizar las fotos de CLIP tras su entrenamiento y ejecutarlas mediante el decodificador de difusión GLIDE. Pero, no se usan las imágenes en sí, sino sus representaciones numéricas. Así, el decodificador genera variaciones sorprendentes, pero manteniendo siempre el estilo principal.

Polémicas en torno a los algoritmos que crean imágenes

A pesar de todas las buenas noticias con relación a los algoritmos que crean imágenes, las polémicas no han tardado en aparecer. Por ejemplo, hay una muy importante y es qué ocurre con los derechos de autor. El cuadro de La joven de la perla ¿respeta estos derechos o no? ¿Cómo se usó entre toda la fuente de imágenes que enseñaron al algoritmo? Esto es algo que ha supuesto un gran revuelo.

Asimismo, otra de las polémicas ha estado relacionada con las imágenes ofensivas o que pueden herir sensibilidades. Para evitarlo, Dall-E, por ejemplo, ha establecido una serie de normas específicas para evitar este tipo de creaciones que tengan que ver con desnudos, gestos que resulten obscenos, entre otros.

También, existen bastantes opiniones en contra de la creación de retratos tan realistas. El hecho de que los algoritmos que crean imágenes lo hagan de una manera tan fiel a la realidad puede provocar que se usen de forma malintencionada, o en actividades cibercriminales. Por ejemplo, en aplicaciones o redes sociales en las que sea posible hacerse pasar por personas que solo existen en el mundo de la IA.

Algoritmos que crean imágenes, ¿cómo funcionan?

¿Perjudican estos algoritmos a los artistas?

Quizás, la polémica más intensa ha sido la relativa a los artistas. Aquellos diseñadores, fotógrafos, ilustradores, etc., que se han formado y se dedican a trabajar con imágenes creativas. Si los algoritmos que crean imágenes lo hacen por ellos, ¿qué futuro les espera? ¿Pueden convertirse estas plataformas en rivales para ellos? Este es el miedo que tienen, a pesar de que todavía el uso de estos algoritmos es limitado.

La inseguridad de los artistas a que su trabajo se encuentre en peligro aún es solo un pensamiento. Pero, puede que termine haciéndose real. Aunque, personalmente, creo que ningún tipo de Inteligencia Artificial podrá llegar a estar al nivel de la creación humana. Es verdad que los resultados de los algoritmos que crean imágenes son sorprendentes, pero no dejan de ser producto de haberle enseñado previamente miles de ellas.

Es cierto que todo evoluciona y que los algoritmos que crean imágenes serán solo el comienzo de una serie de innovaciones que se continuarán produciendo. Es inevitable que la Inteligencia Artificial continúe dándonos opciones interesantes sobre las que investigar. Pero, puede que el miedo a que sustituya determinados trabajos se quede solo en eso. Un temor que a la hora de la verdad no se cumpla.