Conecta con nosotros

Noticias

Microsoft lanza MS MARCO para la comprensión lectora del lenguaje escrito

Publicado el

La Inteligencia Artificial es uno de los campos por los que las tecnológicas están apostando más. Cada una cuenta con una o varias líneas de investigación, y en ocasiones varias colaboran entre sí para conseguir mayores avances. Esto último es lo que pretende Microsoft para conseguir que las tecnológicas puedan crear ordenadores y máquinas capaces de comprender lo que «leen» y de responder a preguntas como lo hacen los humanos. Para ello ha liberado un conjunto de datos, denominado MS MARCO (Microsoft Machine Reading Comprehension), compuesto por 100.000 preguntas en inglés con sus correspondientes respuestas.

Con este conjunto, la compañía espera ayudar a desarrollar sistemas que puedan entender el lenguaje escrito por un humano, y mantener conversaciones con él respondiendo a las preguntas que escribe.

Pero este no es el único fin que, según Computerworld, persigue Microsoft con la publicación de MS MARCO. Según Rangan Majumder, responsable del programa del Grupo de Partners de Microsoft, los de Redmond esperan ser capaces de trabajar con otras organizaciones para desarrollar máquinas que sean mejores que las actuales en comprensión lectora del lenguaje escrito.

Las preguntas que forman parte de MS MARCO están basadas en las formuladas a través del buscador Bing y del asistente virtual Cortana. Las respuestas tienen como base información encontrada en Internet y han escrito humanos (se han comprobado para verificar su precisión). Tanto las cuestiones como las respuestas están listas para que las utilicen modelo de deep learning.

Todos los que quieran utilizar MS MARCO con fines no comerciales pueden descargar la base de datos completamente gratis. Y para ampliar información sobre ella se puede acceder a un trabajo de investigación escrito por el equipo que la ha desarrollado. Este equipo está trabajando ya en la puesta en marcha de un desafío con el que se evaluarán los modelos entrenados con los datos de MS MARCO. En concreto, están desarrollando los scripts de evaluación.

MS MARCO no es la primera base de datos para entrenar a programas de Inteligencia Artificial que comparte Microsoft de manera gratuita para usos no comerciales, dado que ya ha liberado otras antes. Una de ellos es ImageNet, una base de datos de imágenes etiquetadas que se emplea para entrenar a los algoritmos de reconocimiento de imagen.

Lo más leído