A Fondo

Como tratan las tecnológicas los datos de voz que recogen con sus asistentes virtuales

Publicado el

18 abril, 2019

por

Como tratan las tecnológicas los datos de voz que recogen con sus asistentes virtuales

El boom que ha provocado la llegada de los asistentes de voz, ya sea en dispositivos móviles como en altavoces inteligentes, ha hecho que las tecnológicas que los han creado se hayan encontrado con un número ingente de datos y archivos de audio que tratar y almacenar. A diario, cientos de millones de personas en todo el mundo usan los asistentes de Amazon, Apple, Google, Microsoft o Samsung. Y ese número, lejos de reducirse, va a ir subiendo como la espuma.

Según datos recogidos por VentureBeat, ya hay más de 90 millones de adultos que usan asistentes de voz sólo en Estados Unidos en sus smartphones al menos una vez al mes. 77 millones lo usan en sus coches, y 45,7 millones a través de altavoces inteligentes. Y según apuntan en Juniper Research, el uso de asistentes de voz se habrá triplicado para 2023, desde los 2.500 millones de usos en 2018 hasta los 8.000 millones entonces.

Muchos, eso si, no saben qué se hace con sus archivos de voz una vez han interactuado con sus asistentes. A diferencia de lo que pueden pensar, no se borran de inmediato. Y de hecho, pueden almacenarse durante mucho tiempo. A veces, incluso los analizan humanos para asegurarse de la calidad de la voz y planificar el futuro desarrollo de funciones de los asistentes.

Amazon y Alexa

Amazon, que ha desarrollado el asistente virtual Alexa, asegura que extracta y comenta un número «extremadamente pequeño» de grabaciones de voz de Alexa para mejorar la experiencia de cliente. Por ejemplo, para mejorar el reconocimiento de voz y los sistemas de reconocimiento de lenguaje natural. Todo con el objetivo de que el asistente pueda comprender mejor las peticiones.

La compañía utiliza proveedores externos en la revisión de las grabaciones, pero subraya que tiene «mecanismos de seguridad técnicos y operativos» para evitar los abusos, y que los empleados que trabajan con las grabaciones no tienen acceso a información que pueda identificar a quienes hablan en ellas. Sólo pueden ver el número de la cuenta que se ha utilizado con el asistente, los nombres de pila y los números de serie de los dispositivos en los que está instalado Alexa que se han utilizado.

Según ha declarado un portavoz de Amazon sobre lo que hacen con los archivos de voz del Alexa, «toda la información se trata con la máxima confidencialidad, y utilizamos autenticación de varios factores para restringir el acceso a ellos, así como el cifrado del servicio y auditoría de nuestro entorno de control para protegerlo«. Además, en la web y en las páginas de ajustes de las apps, Amazon da a los usuarios la opción de desactivar la grabación de voz para el desarrollo de funciones. Eso sí, aunque los usuarios la desactiven, todavía pueden experimentar un análisis manual de sus grabaciones.

Apple y Siri

Apple hizo público hace un tiempo cómo realiza la revisión de los archivos de audio grabados a través de Siri en su página web. Ahí explica que un grupo de revisores humanos se encarga de revisar y etiquetar una pequeña muestra de datos de Siri para el desarrollo y la mejora de la calidad. También aseguran que cada revisor se encarga de clasificar la calidad de las respuestas e indica las acciones que se deben llevar a cabo al respecto. Con el etiquetado de archivos, Apple alimenta sistemas de reconocimiento que mejoran la calidad de Siri de manera continua.

La compañía también señala que las muestras de voz reservadas para la revisión se cifran y anonimizan, y no están asociadas ni con los nombres de los usuarios ni con las identidades. Además, los revisores ni siquiera reciben los identificadores aleatorios de los archivos, que se refrescan cada cuarto de hora. La compañía almacena las grabaciones durante seis meses, periodo durante el que los sistemas de reconocimiento de Siri los analizan para comprender mejor las voces de los usuarios.

Transcurridos esos meses, las copias se guardan, pero sin identificadores, para utilizarlas en la mejora y desarrollo de Siri durante otros dos años como máximo. Eso sí, hay un pequeño número de grabaciones sin identificador, de transcripciones y de datos asociados que pueden seguir en uso para mejoras diversas más allá de esos dos años.

Google y su asistente

Según un portavoz de Google, la compañía utiliza «un porcentaje muy limitado de transcripciones de audio para mejorar los sistemas de reconocimiento de voz«, pero aplica a estas transcripciones diversas técnicas para proteger la privacidad de los usuarios.

En concreto, apuntan desde la compañía que los trozos de audio que examina no están asociados con ninguna información personal identificable, y que las transcripciones están en su mayoría automatizadas y no las realizan empleados de Google. Además, en los casos en los en los que tienen que utilizar los servicios de terceros para la revisión de datos, dejan claro que, generalmente, sólo proporcionan los textos, pero no los archivos de audio.

Google también apunta a que está empezando a utilizar sistemas que no precisen humanos para realizar su etiquetado. Uno de ellos es Tacotron 2, que puede desarrollar modelos de síntesis de voz basándose solo en espectrogramas. Eso sí, la compañía almacena trozos de audio grabados por su asistente de manera indefinida, aunque permite que los usuarios borren las grabaciones y desactivan cualquier recopilación de datos en el futuro. Pero entonces la experiencia de búsqueda de voz y el asistente serán menos potentes.

Microsoft y Cortana

Microsoft tiene recogidas sus prácticas de privacidad relacionadas con el uso de Cortana en una web de soporte. En ella se puede ver que la compañía recoge datos de voz para la mejora de la comprensión de patrones de voz individuales por parte de Cortana. También para mejorar sus respuestas y reconocimiento, así como otros productos y servicios que utilizan el reconocimiento de voz.

Eso sí, no queda claro en la página si Microsoft subcontrata a terceros la revisión manual de esos datos. Tampoco relata cómo se anonimizan. Eso sí, aseguran que cuando la función «Hey Cortana» está en segundo plano escuchando en portátiles y equipos de sobremesa compatibles, Cortana sólo graba voz después de escuchar su mensaje de activación.

Microsoft permite que los usuarios decidan desactivar la recopilación de datos de voz, así como la personalización y el reconocimiento de voz a través de un panel de control. Eso sí, es posible que al desactivarlos, la experiencia de uso de Cortana mediante la voz no sea completa. Eso sí, reconoce órdenes escritas.

Samsung y Bixbi

La página de preguntas frecuentes en inglés de Samsung sobre su asistente Bixby da varios detalles sobre cómo recopila y utiliza las voces. La compañía graba órdenes de voz y conversaciones, además de otros datos, como información sobre versiones del sistema operativo, la configuración y ajustes del dispositivo o sus identificadores, para mejorar y personalizar la experiencia de producto. Y guarda un histórico de conversaciones para facilitar a Bixby la comprensión de pronunciaciones y patrones de voz.

Algunas de estas mejoras vienen de un servicio externo no identificado, que proporciona servicios de conversión de voz a texto. Por eso, Samsung señala que este proveedor puede recibir y almacenar algunas órdenes de voz. No está claro cuánto tiempo almacena Samsung estas órdenes, aunque señala que en su almacenamiento tiene en cuenta sus políticas de limitación de uso.

A continuación

El futuro de la seguridad online: menos contraseñas y más sistemas basados en la persona

No te pierdas

Así son los nuevos cables submarinos que batirán todos los récords

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.