Noticias

Un pequeño ejército de trabajadores escucha tus conversaciones con Alexa

Publicado el

11 abril, 2019

por

Hay que repetirlo más veces:la Inteligencia Artificial no sería tan inteligente…sin la intervención humana. Si esto sale a colación es porque una investigación llevada a cabo por un grupo de periodistas de Bloomberg, ha puesto de manifiesto que cientos de personas en todo el mundo, escuchan lo que le decimos los altavoces inteligentes de Amazon, con el objetivo de mejorar la forma en la que aprende y por lo tanto, ofrecer mejores respuestas.

No es precisamente un tema menor. En un momento en el que la industria tecnológica insiste a diario sobre ese machine learning que sobre el papel, se traduce en algoritmos capaces de aprender por sí solos y en consecuencia, tomar decisiones autónomas, la investigación de Bloomberg supone un baño de realidad para los tecnófilos más confiados.

Pero ¿Quién escucha nuestras conversaciones con Alexa? ¿Cuánto escucha? ¿Es capaz de relacionar un fragmento de audio con la persona que está hablando? Porque ahí está la clave. No importa tanto de si un grupo de analistas de Amazon escuchan fragmentos de audio aleatorios sino si son capaces de interpretar quién dice qué, en qué dispositivos.

Oficinas en Boston, Costa Rica, India o Rumanía

Según algunos ex-trabajadores de Amazon que bajo la condición de mantener su anonimato, han accedido a hablar con Bloomberg, al parece la compañía de Jeff Bezos dispone de un pequeño ejército de trabajadores cuya única misión es escuchar, interpretar y mejorar nuestras conversaciones con Alexa. En este sentido, la multinacional tendría instalaciones específicas para este fin en localizaciones como Boston, Costa Rica o Rumanía, donde estaría situado uno de los «centros de interpretación» más importantes.

Como ha explicado un extrabajador del centro de Amazon en Bucarest, nada en el edificio anodino en el que se encuentra la «oficina que escucha», revela la presencia de Amazon. Al describir su trabajo, lo describe como un «trabajo más», incluso anodino. En turnos de nueve horas, cada empleado puede llegar a procesar hasta 1.000 clips de audio. Cada clip que se escucha se transcribe para que en un segundo momento, un analista decida si es relevante a la hora de realizar cambios en el algoritmo de Alexa.

¿De qué cambios hablamos? En algunas ocasiones, cosas tan sencillas como indicar que algunas personas pronuncian el nombre de la cantante «Taylor Swift», como si en realidad se llamase «Tailor Swif» por poner un ejemplo. Pero también, para identificar nuevas expresiones populares y jerga, giros lingüísticos, palabras clave relacionadas con un tema de actualidad determinado (como puede ser el Brexit) y muchas otras cosas. Entre estas últimas y aquí hay que romper una lanza a favor de Amazon, señalar aquellas palabras que pueden «despertar» a Amazon Echo por «accidente». Por ejemplo, la expresión francesa «avec sa» (con esto) podría ser confundida por «Alexa»; el sustantivo español «hecho», podría confundirse con «Echo».

Sin embargo y pese a las precauciones que desde la multinacional toman para que su altavoz inteligente no grabe audio cuando no debería hacerlo, en ocasiones resulta inevitable. Así como también coinciden en señalar otras fuentes consultadas por la publicación americana, no resulta raro escuchar clips de audio sobre conversaciones privadas, discusiones e incluso, situaciones mucho más delicadas.

¿Quién está hablando?

Como apuntábamos al principio, el principal problema no es tanto que Amazon grabe fragmentos de audio y que esos fragmentos se utilicen para mejorar el algoritmo, como si los empleados de la compañía son capaces de identificar quién dice qué, introduciendo de esta forma un auténtico «Caballo de Troya» en nuestras vidas.

En este punto, responsables de la multinacional americana consultados por Bloomberg, han querido tranquilizarnos:»Tenemos estrictas salvaguardas técnicas y operativas, y una política de tolerancia cero para el abuso de nuestro sistema. Los empleados no tienen acceso directo a la información que puede identificar a la persona o cuenta como parte de este flujo de trabajo. Toda la información es tratada con alta confidencialidad y utilizamos autenticación multifactorial para restringir el acceso, encriptación de servicios y auditorías de nuestro entorno de control para protegerla», han indicado.

Y sin embargo, aunque es cierto que los usuarios pueden deshabilitar la opción de enviar sus grabaciones de voz «para el desarrollo de mejores», y junto con la información que se envía no se incluye en ningún caso el nombre de usuario o su dirección, también lo es que sí que se envía el ID del dispositivo que realiza la grabación…por lo que de alguna manera, siempre queda una pequeña (o gran) puerta abierta.

A continuación

Cómo elegir las mejores cabinas de almacenamiento para tu centro de datos all-flash

No te pierdas

El proyecto de recuperación de la neutralidad de la Red gana la primera batalla

Rodolfo de Juana

Periodista tecnológico con más de una década de experiencia en el sector. Editor de MuyComputerPro y coordinador de MuySeguridad, la publicación de seguridad informática de referencia.