Conecta con nosotros

Noticias

Meta lanza Llama 3, la renovación de su modelo abierto de IA generativa

Publicado el

Meta lanza Llama 3, la renovación de su modelo abierto de IA generativa

Meta ha anunciado el lanzamiento de una nueva versión de sus modelos de IA generativa con la llegada de Llama 3. Esta nueva familia tiene por ahora dos nuevos modelos, aunque Meta lanzará varios más, aún sin fecha para ello. Son el Llama 3 8B, que contiene 8.000 millones de parámetros, y el Llama 3 70B, con 70.000 millones de parámetros.

Los parámetros definen la habilidad de un modelo de IA a la hora de solucionar un problema, mediante operaciones como el análisis y la generación de texto. Los nuevos de Llama3 tienen los mismos que el Llama 2 8B y el Llama 2 70B, y su avance se ha centrado en mejorar su rendimiento, no en aumentar sus parámetros.

Ambos modelos de Llama 3 se han entrenado con dos clusters de 24.000 GPUs desarrollados a propósito para ello, y la compañía asegura que están entre los modelos de IA generativa de mejor rendimiento disponibles en la actualidad. Para apoyar esto, Meta ha probado los dos en varios bancos de pruebas.

Llama 3 8B mejora los resultados de modelos como el Mistral 7B y Google Gemma 7B en al menos nueve: MMLU (mide el conocimiento), ARC (mide la adquisición de habilidades),  DROP (prueba el razonamiento de un modelo a partir de extractos de texto), GPQA (con preguntas de biología, física y química), HumanEval (una prueba de generación de código), GSM-8K (resolución de problemas matemáticos), MATH (banco de pruebas de matemáticas), AGIEval (conjunto de pruebas de resolución de problemas) y BIG-Ben Hard (valoración del razonamiento en cuanto a sentido común.

Eso sí, Llama 3 8B solo saca un pequeño porcentaje de ventaja en estas pruebas a Mistral 7B y Gemma 7B. Pero Meta asegura que Llama 3 70B puede competir con modelos de IA generativa de primer nivel, como Gemini 1.5 Pro, el más reciente de la familia Gemini. Supera a Gemini 1.5 Pro en MMLU, HumanEval y GSM-8K, y a Claude 3 Sonnet, el segundo modelo menos potente  de la familia Claude 3, en MMLU, GPQA, HumanEval, GSM-8K y MATH. Eso sí, no es capaz de superar al modelo más potente de la saga Claude 3 de Anthropic, Opus.

Principales novedades de Llama 3

Entre las principales novedades de los modelos de Llama 3 está lo que Meta llama una mejor «conducción», es decir, una probabilidad mucho menor de que el modelo rechace contestar preguntas. También una mayor precisión en las respuestas a preguntas de tipo «trivial». También en preguntas de historia y en diversas áreas de disciplinas STEM. Entre ellas, en ingeniería y ciencia, y en recomendaciones generales relacionadas con el código.

Esto se debe, sobre todo, a contar con un conjunto de datos mucho mayor que el utilizado con otros modelos. En concreto, 15 billones de tokens, siete veces más que los del conjunto empleado para entrenar a Llama 2. Se desconoce la fuente de dichos datos, aunque Meta asegura que vienen de fuentes disponibles públicamente. Entre ellos hay cuatro veces más código que el utilizado para el entrenamiento de Llama 2, y un 5% de este conjunto tiene datos en 30 idiomas distintos del inglés. Esto último se ha hecho para que el modelo mejores su rendimiento en otras lenguas aparte de la inglesa.

Meta ha empleado también datos sintéticos, generados por ejemplo mediante Inteligencia Artificial, para crear documentos más largos para el entrenamiento de los modelos de la familia Llama 3, lo que ha despertado cierta polémica por las desventajas que pueden acarrear en cuanto a rendimiento. En conjunto, según la compañía, la diversidad de datos utilizados para entrenar estos modelos y refinar sus respuesta en inglés, ha ayudado a que sean capaces de reconocer mejor tanto los patrones como los matices, y a que tengan un rendimiento mas sólido en diferentes tareas.

La compañía también alega que con Meta 3 ha conseguido mejorar en cuanto a toxicidad. Para ello ha desarrollado nuevos canales de filtrado de datos para mejorar la calidad de los datos con los que ha entrenado los modelos, y que ha actualizado sus suites de seguridad de IA generativa, Llama Guard y CybersecEval, para intentar evitar el mal uso de generacion de texto en los modelos de Llama. Además, Meta ha lanzado CodeShield, una nueva herramienta de detección de código de modelos de IA generativa que puedan llevar aparejadas vulvnerabilidades de seguridad.

Los modelos de Llama 3 ya están disponibles para descargar, e implementados en el Asistente Meta AI en Facebook, Instagram, WhatsApp, Messenger y la web. Además, se instalarán pronto, en formato gestionado, en diversas plataformas cloud. Entre ellas AWS; Databricks, Google Cloud, Hugging Face, Kaggle, WatsonX de IBM, Microsoft Azure Nvidia NIM y Snowflake. Ya a medio plazo, habrá versiones de estos modelos optimizados para hardware de AMD, AWS, Dell, Intel, Nvidia y Qualcomm.

En cuanto a las finalidades con las que se pueden utilizar libremente están las aplicaciones de investigación y comerciales, pero no se podrán emplear para entrenar otros modelos de IA generativa, y los desarrolladores de apps con más de 700 millones de usuarios mensuales tendrán que pedir una licencia especial a Meta para poder utilizarlos.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído