Noticias

La RAE y AWS desarrollan una herramienta con IA para saber el estado del español en Internet

Publicado el

27 mayo, 2022

por

La RAE y AWS desarrollan una herramienta con IA para saber el estado del español en Internet

La Real Academia Española y AWS han presentado una herramienta creada por ambos en el marco del proyecto Lengua Española e Inteligencia Artificial (LEIA). Dicha herramienta está encargada de analizar el idioma español, con el objetivo de valorar su estado a nivel global y en todos los ámbitos, pero especialmente en el digital. Este sistema se ha desarrollado con base en las tecnologías nativas cloud de AWS, con la RAE en el papel de asesor de la herramienta.

En su primera versión, que no es la definitiva sino una de pruebas, esta herramienta contiene 8.745.563 documentos de España y los países hispanohablantes del continente americano. Las fuentes que utiliza están centrados en el español espontáneo actual que se utiliza en entornos digitales. Especialmente emplea textos informales conseguidos a partir de redes sociales, foros o plataformas de comercio electrónico. No obstante, también incluye una selección de textos periodísticos, que sirven para observar las diferencias entre los distintos tipos de lenguaje.

Sus funciones están divididas en tres bloques. El primero está dedicado al estudio de extranjerismos, y se encarga entre otras cosas de detectar su proporción en los textos que examina. El segundo se encarga de analizar la riqueza de vocabulario, para lo que mide la diversidad de palabras con el sistema MTLD (measure of textual lexical diversity, es decir, medida de la diversidad léxica textual). Su último bloque es un radar de fallos lingüísticos, que se encarga de identificar errores y catalogar su tipo: gramatical, léxico, de estilo o tipográfico. Para todo ello, la herramienta lleva integradas reglas obtenidas a partir de obras normativas de la RAE.

Tanto la RAE como AWS ya tienen planes de seguir ampliando la capacidad de la herramienta en sus futuras versiones. Así, entre otras funciones, planean dotarla de lo necesario para que, entre otras cosas, sea capaz de realizar análisis sobre la claridad del lenguaje administrativo, comparar la calidad del español por épocas y detectar errores comunes en asistentes de voz y otros dispositivos con Inteligencia Artificial. Por ahora, es capaz de trabajar con millones de documentos, y ofrece una visualización online con filtrado de resultados en función del país de origen, la fuente de datos o la fecha. Sus datos se pueden presentar en gráficas y mapas visuales.

Esta herramienta de análisis lingüístico, nativa cloud, está creada con base en una arquitectura sin servidor, y orientada a eventos. El análisis de fuentes de datos que realiza tiene tres fases. En la primera, los documentos de las fuentes de datos se indexan. Para ello, la herramienta emplea el servicio cloud AWS Lambda, que permite ejecutar código sin aprovisionar ni administrar servidores, que los indexa en Amazon OpenSearch Service.

Este es un sistema de alta escalabilidad con el que se ofrece acceso rápido, análisis y búsqueda en grandes volúmenes de datos. Pero antes del indexado se lleva a cabo otro paso, que sirve para verificar y validar que cada documento contiene los campos necesarios para identificarlo: fecha de generación, texto, país al que pertenece y código del país en cuestión. Las fuentes de datos, así como los resultados y métricas obtenidos a partir de los documentos de entrada que se procesarán quedan almacenados en Amazon S3, un servicio de almacenamiento pensado para poder acceder a cualquier volumen de datos desde cualquier punto.

Finalizada la primera fase, llega la segunda, en la que en función de diversos criterios, como el cálculo de estadísticas generales con respecto a la variabilidad, frecuencia y riqueza del texto, y el cálculo de errores mediante algoritmos de proceso de lenguaje natural; se consiguen métricas que caracterizan los textos de las fuentes de datos. Además, el algoritmo de proceso de lenguaje natural, basado en reglas de obras académicas, detecta errores pertenecientes a varias categorías.

La tercera fase de la herramienta es el indexado de los resultados del análisis para su visualización posterior, lo que se lleva a cabo con AWS Lambda. En ella se incorporan los datos indexados por cada fuente en la herramienta de visualización de datos basada en Amazon OpenSearch Dashboards. De esta manera, los usuarios de la herramienta pueden ver e interactuar con sus datos cuando se han procesado, utilizando para ello incluso filtros dinámicos que actualizan los resultados mostrados en tiempo real.

En el desarrollo del proyecto, los creadores de la herramienta han utilizado Amazon SageMaker, un servicio de generación, entrenamiento e implementación de modelos de lenguaje automático para crear y probar algoritmos y visualizaciones. También AWS Batch, que se encarga de aprovechar de forma dinámica la cantidad y tipo de recursos informáticos más adecuados en cada caso en función del volumen y requisitos específicos.

A continuación

La consultora EY hace planes para separar sus divisiones de consultoría y auditoría

No te pierdas

Píldoras MCPRO (CXXXVIII): Estudio CIO 2022, Perte TIC, Lenguajes de Programación

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Click para comentar

A FondoHace 5 días

Píldora roja o píldora azul

NoticiasHace 9 horas

QNAP estrena la segunda beta abierta de QuTS hero h6.0

NoticiasHace 6 días

ASUS presenta el portátil para empresas, ExpertBook B3 G2

EntrevistasHace 5 días

«Es crucial conectar la IA a conocimiento interno y a los flujos reales de trabajo»

MuyComputerPRO

La RAE y AWS desarrollan una herramienta con IA para saber el estado del español en Internet

Noticias

La RAE y AWS desarrollan una herramienta con IA para saber el estado del español en Internet

Empleo TI en 2026: ¿qué habilidades buscarán las empresas en los candidatos debido a la IA?

Estudio del MIT: los agentes de IA suspenden en transparencia y seguridad

Western Digital recupera la marca G-Drive para las unidades de almacenamiento externo Sandisk Professional

Telefónica, Vithas y la UFV utilizarán computación cuántica para crear fármacos contra el cáncer

La bolsa sigue en pánico por la IA. Víctima: el mercado de la ciberseguridad

El malware como servicio amplía objetivos apoyado por la IA

ESIC y la formación que anticipa el futuro: cómo convertirse en el profesional que las empresas buscan en la era de los datos

285.000 millones evaporados o por qué tu modelo de licencias puede morir

IA Agéntica: el 77% de proyectos fracasa al escalar

La UE abre una investigación a X por las imágenes explícitas generadas con Grok AI

El caso IBM o cómo sobrevivir al meteorito de la agéntica

Autodesk despide a un 7% de su plantilla para redirigir su inversión a la IA y la nube

Empleo TI en 2026: ¿qué habilidades buscarán las empresas en los candidatos debido a la IA?

Microsoft presenta Rho-alpha, primer modelo de robótica para IA física

«Por primera vez es la tecnología la que se adapta a nosotros»

Intel centrará el suministro de chips en servidores para IA

Dell amplía sus gamas de portátiles Pro Education y Chromebook para educación

Reevo ha comprado Hispasec, un histórico de la ciberseguridad en España

Lo más leído

MuyComputerPRO

La RAE y AWS desarrollan una herramienta con IA para saber el estado del español en Internet

También te puede gustar

Empleo TI en 2026: ¿qué habilidades buscarán las empresas en los candidatos debido a la IA?

Estudio del MIT: los agentes de IA suspenden en transparencia y seguridad

Western Digital recupera la marca G-Drive para las unidades de almacenamiento externo Sandisk Professional

Telefónica, Vithas y la UFV utilizarán computación cuántica para crear fármacos contra el cáncer

La bolsa sigue en pánico por la IA. Víctima: el mercado de la ciberseguridad

El malware como servicio amplía objetivos apoyado por la IA

ESIC y la formación que anticipa el futuro: cómo convertirse en el profesional que las empresas buscan en la era de los datos

285.000 millones evaporados o por qué tu modelo de licencias puede morir

IA Agéntica: el 77% de proyectos fracasa al escalar

La UE abre una investigación a X por las imágenes explícitas generadas con Grok AI

El caso IBM o cómo sobrevivir al meteorito de la agéntica

Autodesk despide a un 7% de su plantilla para redirigir su inversión a la IA y la nube

Empleo TI en 2026: ¿qué habilidades buscarán las empresas en los candidatos debido a la IA?

Microsoft presenta Rho-alpha, primer modelo de robótica para IA física

«Por primera vez es la tecnología la que se adapta a nosotros»

Intel centrará el suministro de chips en servidores para IA

Dell amplía sus gamas de portátiles Pro Education y Chromebook para educación

Reevo ha comprado Hispasec, un histórico de la ciberseguridad en España

Lo más leído