Noticias

Meta lanza Llama 3, la renovación de su modelo abierto de IA generativa

Publicado el

22 abril, 2024

por

Meta lanza Llama 3, la renovación de su modelo abierto de IA generativa

Meta ha anunciado el lanzamiento de una nueva versión de sus modelos de IA generativa con la llegada de Llama 3. Esta nueva familia tiene por ahora dos nuevos modelos, aunque Meta lanzará varios más, aún sin fecha para ello. Son el Llama 3 8B, que contiene 8.000 millones de parámetros, y el Llama 3 70B, con 70.000 millones de parámetros.

Los parámetros definen la habilidad de un modelo de IA a la hora de solucionar un problema, mediante operaciones como el análisis y la generación de texto. Los nuevos de Llama3 tienen los mismos que el Llama 2 8B y el Llama 2 70B, y su avance se ha centrado en mejorar su rendimiento, no en aumentar sus parámetros.

Ambos modelos de Llama 3 se han entrenado con dos clusters de 24.000 GPUs desarrollados a propósito para ello, y la compañía asegura que están entre los modelos de IA generativa de mejor rendimiento disponibles en la actualidad. Para apoyar esto, Meta ha probado los dos en varios bancos de pruebas.

Llama 3 8B mejora los resultados de modelos como el Mistral 7B y Google Gemma 7B en al menos nueve: MMLU (mide el conocimiento), ARC (mide la adquisición de habilidades), DROP (prueba el razonamiento de un modelo a partir de extractos de texto), GPQA (con preguntas de biología, física y química), HumanEval (una prueba de generación de código), GSM-8K (resolución de problemas matemáticos), MATH (banco de pruebas de matemáticas), AGIEval (conjunto de pruebas de resolución de problemas) y BIG-Ben Hard (valoración del razonamiento en cuanto a sentido común.

Eso sí, Llama 3 8B solo saca un pequeño porcentaje de ventaja en estas pruebas a Mistral 7B y Gemma 7B. Pero Meta asegura que Llama 3 70B puede competir con modelos de IA generativa de primer nivel, como Gemini 1.5 Pro, el más reciente de la familia Gemini. Supera a Gemini 1.5 Pro en MMLU, HumanEval y GSM-8K, y a Claude 3 Sonnet, el segundo modelo menos potente de la familia Claude 3, en MMLU, GPQA, HumanEval, GSM-8K y MATH. Eso sí, no es capaz de superar al modelo más potente de la saga Claude 3 de Anthropic, Opus.

Principales novedades de Llama 3

Entre las principales novedades de los modelos de Llama 3 está lo que Meta llama una mejor «conducción», es decir, una probabilidad mucho menor de que el modelo rechace contestar preguntas. También una mayor precisión en las respuestas a preguntas de tipo «trivial». También en preguntas de historia y en diversas áreas de disciplinas STEM. Entre ellas, en ingeniería y ciencia, y en recomendaciones generales relacionadas con el código.

Esto se debe, sobre todo, a contar con un conjunto de datos mucho mayor que el utilizado con otros modelos. En concreto, 15 billones de tokens, siete veces más que los del conjunto empleado para entrenar a Llama 2. Se desconoce la fuente de dichos datos, aunque Meta asegura que vienen de fuentes disponibles públicamente. Entre ellos hay cuatro veces más código que el utilizado para el entrenamiento de Llama 2, y un 5% de este conjunto tiene datos en 30 idiomas distintos del inglés. Esto último se ha hecho para que el modelo mejores su rendimiento en otras lenguas aparte de la inglesa.

Meta ha empleado también datos sintéticos, generados por ejemplo mediante Inteligencia Artificial, para crear documentos más largos para el entrenamiento de los modelos de la familia Llama 3, lo que ha despertado cierta polémica por las desventajas que pueden acarrear en cuanto a rendimiento. En conjunto, según la compañía, la diversidad de datos utilizados para entrenar estos modelos y refinar sus respuesta en inglés, ha ayudado a que sean capaces de reconocer mejor tanto los patrones como los matices, y a que tengan un rendimiento mas sólido en diferentes tareas.

La compañía también alega que con Meta 3 ha conseguido mejorar en cuanto a toxicidad. Para ello ha desarrollado nuevos canales de filtrado de datos para mejorar la calidad de los datos con los que ha entrenado los modelos, y que ha actualizado sus suites de seguridad de IA generativa, Llama Guard y CybersecEval, para intentar evitar el mal uso de generacion de texto en los modelos de Llama. Además, Meta ha lanzado CodeShield, una nueva herramienta de detección de código de modelos de IA generativa que puedan llevar aparejadas vulvnerabilidades de seguridad.

Los modelos de Llama 3 ya están disponibles para descargar, e implementados en el Asistente Meta AI en Facebook, Instagram, WhatsApp, Messenger y la web. Además, se instalarán pronto, en formato gestionado, en diversas plataformas cloud. Entre ellas AWS; Databricks, Google Cloud, Hugging Face, Kaggle, WatsonX de IBM, Microsoft Azure Nvidia NIM y Snowflake. Ya a medio plazo, habrá versiones de estos modelos optimizados para hardware de AMD, AWS, Dell, Intel, Nvidia y Qualcomm.

En cuanto a las finalidades con las que se pueden utilizar libremente están las aplicaciones de investigación y comerciales, pero no se podrán emplear para entrenar otros modelos de IA generativa, y los desarrolladores de apps con más de 700 millones de usuarios mensuales tendrán que pedir una licencia especial a Meta para poder utilizarlos.

A continuación

DES2024 lleva a Málaga lo último en avances tecnológicos para distintos sectores de la industria

No te pierdas

Qlik nombra a José Andrés García Bueno como Country Leader para España y Portugal

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

NoticiasHace 3 días

La inteligencia artificial generativa podría cobrarse pronto su primera víctima: los centros de llamadas

A FondoHace 3 días

Un «sweetspot» para la realidad mixta

A FondoHace 4 días

Las principales estrategias de marketing digital para impulsar tus ventas en 2024

Thoma Bravo se queda con la compañía británica de ciberseguridad Darktrace

NoticiasHace 5 días

Thoma Bravo se queda con la compañía británica de ciberseguridad Darktrace

MuyComputerPRO

Meta lanza Llama 3, la renovación de su modelo abierto de IA generativa

Noticias

Meta lanza Llama 3, la renovación de su modelo abierto de IA generativa

Principales novedades de Llama 3

Microsoft amplía la compatibilidad con Passkey a todas las cuentas de usuarios

Dropbox sufre una brecha que afecta a su servicio de firma electrónica

knowmad mood compra la consultora alemana Aservo Software

¿Puede hackearse una VPN?

Generación Aumentada por Recuperación (RAG): ¿qué es?

Un «sweetspot» para la realidad mixta

Salesforce celebra su World Tour Madrid junto a más de 2.500 asistentes

Salesforce amplía el despliegue de IA con la llegada de Einstein Copilot a Tableau

«No tiene sentido una estrategia tecnológica que no encaje al 100% con la del CEO»

El hackeo de caras, un peligro que acecha a los sistemas de seguridad biométrica

Huawei Enterprise Roadshow para en abril en Bilbao, Barcelona, Albacete y Madrid

Automatizando el Cloud Journey con myCloudDoor y Microsoft Azure

Microsoft amplía la compatibilidad con Passkey a todas las cuentas de usuarios

Fujitsu crea un gemelo digital oceánico gracias a los drones submarinos e IA

La división cloud de Huawei se convierte en uno de sus principales apoyos para seguir creciendo

Amazon reduce la plantilla de su división de cloud computing

Microsoft y Quantinuum desarrollan el sistema cuántico con la menor tasa de errores hasta ahora

Salesforce amplía el despliegue de IA con la llegada de Einstein Copilot a Tableau

Lo más leído

MuyComputerPRO

Meta lanza Llama 3, la renovación de su modelo abierto de IA generativa

Principales novedades de Llama 3

También te puede gustar

Microsoft amplía la compatibilidad con Passkey a todas las cuentas de usuarios

Dropbox sufre una brecha que afecta a su servicio de firma electrónica

knowmad mood compra la consultora alemana Aservo Software

¿Puede hackearse una VPN?

Generación Aumentada por Recuperación (RAG): ¿qué es?

Un «sweetspot» para la realidad mixta

Salesforce celebra su World Tour Madrid junto a más de 2.500 asistentes

Salesforce amplía el despliegue de IA con la llegada de Einstein Copilot a Tableau

«No tiene sentido una estrategia tecnológica que no encaje al 100% con la del CEO»

El hackeo de caras, un peligro que acecha a los sistemas de seguridad biométrica

Huawei Enterprise Roadshow para en abril en Bilbao, Barcelona, Albacete y Madrid

Automatizando el Cloud Journey con myCloudDoor y Microsoft Azure

Microsoft amplía la compatibilidad con Passkey a todas las cuentas de usuarios

Fujitsu crea un gemelo digital oceánico gracias a los drones submarinos e IA

La división cloud de Huawei se convierte en uno de sus principales apoyos para seguir creciendo

Amazon reduce la plantilla de su división de cloud computing

Microsoft y Quantinuum desarrollan el sistema cuántico con la menor tasa de errores hasta ahora

Salesforce amplía el despliegue de IA con la llegada de Einstein Copilot a Tableau

Lo más leído