Conecta con nosotros

Noticias

La RAE y AWS desarrollan una herramienta con IA para saber el estado del español en Internet

Publicado el

La RAE y AWS desarrollan una herramienta con IA para saber el estado del español en Internet

La Real Academia Española y AWS han presentado una herramienta creada por ambos en el marco del proyecto Lengua Española e Inteligencia Artificial (LEIA). Dicha herramienta está encargada de analizar el idioma español, con el objetivo de valorar su estado a nivel global y en todos los ámbitos, pero especialmente en el digital. Este sistema se ha desarrollado con base en las tecnologías nativas cloud de AWS, con la RAE en el papel de asesor de la herramienta.

En su primera versión, que no es la definitiva sino una de pruebas, esta herramienta contiene 8.745.563 documentos de España y los países hispanohablantes del continente americano. Las fuentes que utiliza están centrados en el español espontáneo actual que se utiliza en entornos digitales. Especialmente emplea textos informales conseguidos a partir de redes sociales, foros o plataformas de comercio electrónico. No obstante, también incluye una selección de textos periodísticos, que sirven para observar las diferencias entre los distintos tipos de lenguaje.

Sus funciones están divididas en tres bloques. El primero está dedicado al estudio de extranjerismos, y se encarga entre otras cosas de detectar su proporción en los textos que examina. El segundo se encarga de analizar la riqueza de vocabulario, para lo que mide la diversidad de palabras con el sistema MTLD (measure of textual lexical diversity, es decir, medida de la diversidad léxica textual). Su último bloque es un radar de fallos lingüísticos, que se encarga de identificar errores y catalogar su tipo: gramatical, léxico, de estilo o tipográfico. Para todo ello, la herramienta lleva integradas reglas obtenidas a partir de obras normativas de la RAE.

Tanto la RAE como AWS ya tienen planes de seguir ampliando la capacidad de la herramienta en sus futuras versiones. Así, entre otras funciones, planean dotarla de lo necesario para que, entre otras cosas, sea capaz de realizar análisis sobre la claridad del lenguaje administrativo, comparar la calidad del español por épocas y detectar errores comunes en asistentes de voz y otros dispositivos con Inteligencia Artificial. Por ahora, es capaz de trabajar con millones de documentos, y ofrece una visualización online con filtrado de resultados en función del país de origen, la fuente de datos o la fecha. Sus datos se pueden presentar en gráficas y mapas visuales.

Esta herramienta de análisis lingüístico, nativa cloud, está creada con base en una arquitectura sin servidor, y orientada a eventos. El análisis de fuentes de datos que realiza tiene tres fases. En la primera, los documentos de las fuentes de datos se indexan. Para ello, la herramienta emplea el servicio cloud AWS Lambda, que permite ejecutar código sin aprovisionar ni administrar servidores, que los indexa en Amazon OpenSearch Service.

Este es un sistema de alta escalabilidad con el que se ofrece acceso rápido, análisis y búsqueda en grandes volúmenes de datos. Pero antes del indexado se lleva a cabo otro paso, que sirve para verificar y validar que cada documento contiene los campos necesarios para identificarlo: fecha de generación, texto, país al que pertenece y código del país en cuestión. Las fuentes de datos, así como los resultados y métricas obtenidos a partir de los documentos de entrada que se procesarán quedan almacenados en Amazon S3, un servicio de almacenamiento pensado para poder acceder a cualquier volumen de datos desde cualquier punto.

Finalizada la primera fase, llega la segunda, en la que en función de diversos criterios, como el cálculo de estadísticas generales con respecto a la variabilidad, frecuencia y riqueza del texto, y el cálculo de errores mediante algoritmos de proceso de lenguaje natural; se consiguen métricas que caracterizan los textos de las fuentes de datos. Además, el algoritmo de proceso de lenguaje natural, basado en reglas de obras académicas, detecta errores pertenecientes a varias categorías.

La tercera fase de la herramienta es el indexado de los resultados del análisis para su visualización posterior, lo que se lleva a cabo con AWS Lambda. En ella se incorporan los datos indexados por cada fuente en la herramienta de visualización de datos basada en Amazon OpenSearch Dashboards. De esta manera, los usuarios de la herramienta pueden ver e interactuar con sus datos cuando se han procesado, utilizando para ello incluso filtros dinámicos que actualizan los resultados mostrados en tiempo real.

En el desarrollo del proyecto, los creadores de la herramienta han utilizado Amazon SageMaker, un servicio de generación, entrenamiento e implementación de modelos de lenguaje automático para crear y probar algoritmos y visualizaciones. También AWS Batch, que se encarga de aprovechar de forma dinámica la cantidad y tipo de recursos informáticos más adecuados en cada caso en función del volumen y requisitos específicos.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído