Noticias

Point-E, la nueva plataforma de inteligencia artificial de OpenAI basada en DALL-E para generar modelos en 3D

Publicado el

22 diciembre, 2022

por

Tras el éxito de DALL-E y Chat GPT, Open AI irrumpe en el mercado con Point-E. La startup de inteligencia artificial fundada por el magnate Elon Musk quiere ahora revolucionar el mundo del modelado en 3D pero valiéndose para ello de las tecnologías más clásicas.

El aspecto diferenciador de Point-E es que, a diferencia de sus competidores como DreamFusion de Google que tardan varias horas en producir imágenes, el nuevo descubrimiento de OpenAI solo precisará de una GPU y de un par de minutos para pasar de texto a imagen. ¿Increíble, verdad?

Una eficacia sin precedentes

Esta máquina de creación de nubes de puntos 3D recibirá una idea, por ejemplo, ‘un perro saltando la comba’, y en cuestión de segundos, Point-E será capaz de generar una representación 3D de vista sintética.

Posteriormente la ejecutará dicha imagen mediante modelos de difusión para crear la nube de puntos RGB 3D de la imagen inicial. ¿Cómo lo hará? Primero produce un modelo de nube grueso conformado por 1.024 puntos y luego otro más fino, de 4.096 puntos. La imagen siempre contendrá la información relevante del texto.

Point-E es capaz de aprovechar una gran cantidad de pares (texto + imagen) partiendo de un conjunto de datos más pequeño. Así pues lo primero será muestrear una imagen utilizado el modelo ‘Text-to-3D’ para posteriormente muestrear un objeto 3D que condicionará, obviamente, a la imagen muestreada. Así, y consumiendo muy pocos recursos, podrá generar la nube de puntos que dará forma a la geometría del objeto 3D.

Con su alto nivel de eficiencia y optimización supera a otros sistemas de texto a imagen como Craiyon de Open AI y DALL-E 2 de la misma compañía. Pero es que también adelanta, con creces, a Lensa de Prisma Lab o a Stable Difussion de Hugging Face.

El modelado 3D está presente en numerosas industrias y de que esté bien trabajado y conseguido dependerá el éxito en el mercado de videojuegos, realidad virtual, misiones de mapeo de cráteres lunares de la NASA, proyectos de preservación de sitios patrimoniales de Google, la visión de Meta para Metaverse e incluso la taquilla que hagan las películas contemporáneas como ‘Avatar’.

La creación de imágenes 3D fotorrealistas consume mucho tiempo y recursos. No obstante, existen grandes trabajos previos desarrollados como el de NVIDIA, que permite generar objetos del mundo real automáticamente como 3D gracias a la aplicación móvil de iOS; ‘RealityCapture’ de Epic Games.

Alex Nichol, director del centro de investigación de OpenAI ha asegurado que cualquier persona puede probar esta experiencia, ya que han publicado el código fuente abierto en Github: «Nuestro método genera primero una vista sintética única utilizando un modelo de difusión de texto a imagen y, a continuación, produce una nube de puntos 3D utilizando un segundo modelo de difusión que condiciona la imagen generada.».

Su optimización y rapidez es lo que hacen diferente a Point-E de OpenAI y lo que denota que acabará triunfando, con éxito, en la industria 3D. Será cuestión de tiempo ver nuevas propuestas de imágenes tridimensionales basadas en Point-E.