Connect with us

A Fondo

AWS Nova, la nueva familia de modelos multimodales de IA generativa de Amazon

Publicado el

AWS Nova, la nueva familia de modelos multimodales de IA generativa de Amazon

AWS ha entrado por fin en el mundo de los modelos fundacionales de IA generativa con su gama de modelos multimodales Nova. Presentados hace unos días en la conferencia para desarrolladores Re:Invent de la compañía, suponen para Amazon una apuesta propia por la IA generativa capaz de crear no solo texto, sino también imagen y vídeo, en vez de depender de dar acceso a través de su plataforma cloud a modelos de terceros.

Según el CEO y Presidente de Amazon, Andy Jassy, estos modelos son un 75% más económicos que otros modelos de datos, y según el directivo también ofrecen rapidez con respecto a la latencia. Se puede acceder a ellos a través de AWS Bedrock, el servicio gestionado de Amazon Web Services que ofrece acceso a través de una sola API a diversos modelos fundacionales de diversas empresas dedicadas a la IA. a través de éll se pueden ajustar para trabajar con texto, imágenes o vídeo.

Los modelos, ya disponibles, son seis. Los cuatro primeros son modelos desarrollados para la generación de texto: Micro, Lite, Pro y Premier. El quinto, Nova Canvas, es capaz de generar imágenes, y el último, Nova Canvas, está desarrollado para generar vídeo mediante Inteligencia Artificial.

Nova Micro, Lite, Pro y Premier

Los cuatro modelos de Nova preparados para la generación de texto, que están optimizados para trabajar con 15 lenguas aunque su idioma principal es el inglés, tienen diversos tamaños y capacidades. Micro solo puede recibir información en formato texto y generar texto, pero es el que menos latencia tienen de todos, y es el que más rápido procesa texto y generar respuestas.

Lite puede procesar entradas con imágenes, vídeo y texto de manera bastante rápida. Pro ofrece una combinación equilibrada ede precisión, velocidad y riesgo para distintas tareas. Y Premier es el más potente, ya que está diseñado para trabajar con cargas de trabajo complejas.

Al igual que Lite, Pro y Premier pueden analizar texto, imágenes y vídeo. Todos están preparados para recibir documentos completos como información de entrada y generar resúmenes de gráficas, reuniones y diagramas. No obstante, AWS lo está posicionando más como un modelo que pueda enseñar a otros, con el fin de crear modelos personalizados y adaptados, en vez de ser un modelo que pueda utilizarse por si mismo, de manera independiente.

Micro tiene una ventana de contexto de 128.000 tokens, lo que implica que puede procesar un máximo aproximado de 100.000 palabras. Lite y Pro suben la capacidad de estas ventanas hasta los 300.000 tokens, lo que le lleva a una capacidad de proceso que ronda las 225.000 palabras, o bien de 15.000 líneas de código o de 30 minutos de metraje. A principios de 2025, varios modelos de la gama Nova contarán con ventanas de contexto ampliadas, que podrán dar soporte hasta a dos millones de tokens.

NovA Canvas y Reel

Nova Canvas, por su parte, permite a los usuarios generar y editar imágenes a partir de prompts, y ofrece controles para ajustar el aspecto y los esquemas de color de las imágenes generadas. En cuanto a Nova Reel, es capaz de crear vídeo de hasta seis segundos a partir de prompts, pero también de imágenes de referencia que se le suministren. Los usuarios pueden, con Reel, ajustar el movimiento de la cámara para generar vídeos con rotaciones, zoom o panorámicas.

En la actualidad, la creación de un vídeo de seis segundos lleva unos tres minutos, pero según AWS pronto llegará una versión capaz de crear vídeos de hasta dos minutos de duración. Según Andy Jassy, tanto Canvas como Reel tienen controles integrados para hacer un uso responsable de los mismos. Entre ellos, la generación de marcas de agua y la moderación de contenido, con el fin de evitar la creación de contenido potencialmente dañino.

Según la compañía, Nova cuenta con medidas de seguridad preparadas para combatir la expansión de la desinformación, evitar los materiales de abusos sexuales a menores y diversos tipos de riegos adicionales. Lo que no ha clarificado AWS es, en general, qué datos emplea para entrenar sus modelos generativos, y solo han comentado que usan una combinación de datos propietarios y con licencia.

De cara al futuro, Andy Jassy ha comentado que AWS está trabajando en un modelo capaz de generar voz a partir de peticiones realizadas también con la vez, mediante lenguaje natural, que piensan lanzar ya a lo largo del primer trimestre de 2025. También están desarrollando un modelo, que terminarán si todo sale según sus planes para mediados de 2025, capaz de generar cualquier tipo de resultado (texto, voz, imagen o vídeo), a partir de cualquier formato y tipo de prompt.

Además, este modelo será también capaz de interpretar entradas verbales y no verbales, como el tono y la cadencia, y generar voces naturales, que parezcan humanas. En cuanto al modelo capaz de generar cualquier tipo de salida a partir de cualquier tipo de prompt, en teoría, se utilizará para integrarlo en diversos tipos de aplicaciones, que van desde traductores a editores de contenido o asistentes de IA.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Advertisement
Advertisement

Lo más leído