Noticias

BSC y Biblioteca Nacional crean MarIA, una Inteligencia Artificial para mejorar las respuestas de otras IA en español

Publicado el

29 julio, 2021

por

BSC y Biblioteca Nacional crean MarIA, una Inteligencia Artificial para mejorar las respuestas de otras IA en español

El Barcelona Supercomputing Center (BSC) y la Biblioteca Nacional han desarrollado un sistema de Inteligencia Artificial pensado para ayudar a que otros sistemas de Inteligencia Artificial puedan mejorar las respuestas que dan en español. Se trata de MarIA, que nace de un proyecto financiado gracias a los fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Agenda Digital. También de los de una iniciativa conjunta del BSC-CNS e IBM: el Future Computing Center.

MarIA, al que puede acceder de manera libre y gratuita cualquier desarrollador o empresa, cuenta con multitud de posibles aplicaciones. Entre otros, se puede utilizar en correctores o herramientas de predicción de lenguaje, así como en aplicaciones que realizan resúmenes de manera automática, bots de charla, sistemas de búsqueda inteligente y motores de traducción y creación automática de subtítulos.

Para entrenar al sistema se han utilizado ficheros de datos de la Biblioteca Nacional creados a partir del rastreo y archivo de la web de España, que dicha entidad conserva como patrimonio documental. El sistema es un conjunto de modelos de lenguaje entrenados para ser capaces de comprender la lengua española. Pero no solo su vocabulario, gramática y sintaxis, sino también los mecanismos que permiten expresar el significado de lo que se quiere decir en cada momento, así como escribir en español a un nivel avanzado. Estos modelos puede trabajar con interdependencias cortar y largas y pueden entender incluso conceptos abstractos y su contexto.

En la creación del corpus de la lengua utilizado por MarIA se han empleado 59 TB del archivo web que hay en la Biblioteca Nacional, que se procesaron para eliminar lo que no fuese texto formado de manera correcta en español. También los duplicados y las palabras y expresiones en otros idiomas. El cribado se realizó con la ayuda del superordenador MareNostrum, que arrojó como buenos más de 200 millones de documentos limpios, que ocupan 570 GB.

Tras generar este conjunto de documentos, los investigadores del BSC emplearon una tecnología de redes neuronales, a la que entrenaron para que aprendiese y fuese capaz de utilizar la lengua española. Como resultado se han liberado hasta ahora dos modelos, con 125 y 355 millones de parámetros respectivamente.

Pero el trabajo del equipo encargado del desarrollo de MarIA no ha terminado, puesto que el grupo de minería de textos del BSC trabaja ya en la ampliación el corpus conseguido, para lo que van a utilizar fuentes de archivos nuevos, con textos con particularidades distintas a los hallados en la web. Por ejemplo, publicaciones científicas. Además, el equipo tiene previsto generar modelos entrenados con textos de otros idiomas, como las lenguas autonómicas, portugués y el castellano hablado en países de América Latina.

A continuación

Los ataques al tráfico de APIs crecen más de un 340% en seis meses

No te pierdas

Microsoft compra Suplari, una empresa que ayuda a otras a comprender y controlar sus gastos

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Click para comentar

EntrevistasHace 5 días

«Proporcionamos ciberseguridad de gama alta a nuestros clientes, sin importar su tamaño»

NoticiasHace 4 días

DEV presenta el Libro Blanco del Desarrollo Español de Videojuegos 2025

Virtual Cable y HPE colaborarán en puesto de trabajo inteligente con UDS Enterprise

NoticiasHace 4 días

Virtual Cable y HPE colaborarán en puesto de trabajo inteligente con UDS Enterprise

Cloudflare bloqueará los rastreadores web mixtos que presten servicio a las empresas de IA

NoticiasHace 5 días

Cloudflare bloqueará los rastreadores web mixtos que presten servicio a las empresas de IA

MuyComputerPRO

BSC y Biblioteca Nacional crean MarIA, una Inteligencia Artificial para mejorar las respuestas de otras IA en español

Noticias

BSC y Biblioteca Nacional crean MarIA, una Inteligencia Artificial para mejorar las respuestas de otras IA en español

Bitdefender Sovereign Acceleration Program, soberanía europea también en ciberseguridad

Nextcloud lanza oficialmente su programa para ISV

Dell ampliará los centros de datos de Vodafone en España

Las ventas de ordenadores caen un 3,6%, lastradas por el precio de memoria y almacenamiento

«La clave no es la IA, es la confianza en el dato»

La mayoría de españoles cree que depender de tecnología ajena a la UE es peligroso para la seguridad

Anthropic suspende el acceso a sus modelos de IA, Fable 5 y Mythos 5

ASUS lanza la supercomputadora de IA de escritorio, ExpertCenter Pro ET900N G3

Synology lanza DiskStation Manager 7.4

LineShine: China supera a EE.UU alcanzando el primer puesto del TOP500 de supercomputadoras

El Gobierno destina 719 millones a un proyecto español de desarrollo de una gigafactoría de IA

«La digitalización hospitalaria ya no es una promesa: es una realidad en marcha»

Bitdefender Sovereign Acceleration Program, soberanía europea también en ciberseguridad

VeeamON Tour Madrid: cómo construir infraestructuras de confianza para la era de la IA agéntica

El 35% de las pymes españolas invertirá en IA en 2026

El consumo de electricidad de los centros de datos crecerá un 26% en 2026

D-Matrix, respaldada por Microsoft, es otra de las que quieren desafiar a NVIDIA

El shopping algorítmico está lejos de lograr la confianza de los compradores

Lo más leído

MuyComputerPRO

BSC y Biblioteca Nacional crean MarIA, una Inteligencia Artificial para mejorar las respuestas de otras IA en español

También te puede gustar

Bitdefender Sovereign Acceleration Program, soberanía europea también en ciberseguridad

Nextcloud lanza oficialmente su programa para ISV

Dell ampliará los centros de datos de Vodafone en España

Las ventas de ordenadores caen un 3,6%, lastradas por el precio de memoria y almacenamiento

«La clave no es la IA, es la confianza en el dato»

La mayoría de españoles cree que depender de tecnología ajena a la UE es peligroso para la seguridad

Anthropic suspende el acceso a sus modelos de IA, Fable 5 y Mythos 5

ASUS lanza la supercomputadora de IA de escritorio, ExpertCenter Pro ET900N G3

Synology lanza DiskStation Manager 7.4

LineShine: China supera a EE.UU alcanzando el primer puesto del TOP500 de supercomputadoras

El Gobierno destina 719 millones a un proyecto español de desarrollo de una gigafactoría de IA

«La digitalización hospitalaria ya no es una promesa: es una realidad en marcha»

Bitdefender Sovereign Acceleration Program, soberanía europea también en ciberseguridad

VeeamON Tour Madrid: cómo construir infraestructuras de confianza para la era de la IA agéntica

El 35% de las pymes españolas invertirá en IA en 2026

El consumo de electricidad de los centros de datos crecerá un 26% en 2026

D-Matrix, respaldada por Microsoft, es otra de las que quieren desafiar a NVIDIA

El shopping algorítmico está lejos de lograr la confianza de los compradores

Lo más leído