Conecta con nosotros

A Fondo

Siete verdades incómodas a las que se enfrentan los científicos de datos

Publicado el

No es la primera vez que lo leéis en MCPRO: los científicos de datos son y van a seguir siendo, uno de los perfiles TIC más demandados. Sobre todo porque hemos llegado a un momento en que la fe ciega en los datos y lo que nos pueden llegar a contar, se ha convertido en poco menos que en una religión. Y si no, preguntadle a los dataístas, esos convencidos del poder de los datos que fueron identificados y descritos como «culto» por David Brooks, ya en 2013.

Y sin embargo como cuenta el data scientist Peter Wayner, en «The 12 dark secrets of data science», la ciencia de datos se enfrenta hoy en día a unos cuantos obstáculos que no son precisamente sencillos de superar, como sesgos ideológicos, datos erróneos, o conclusiones que no son tales. Estos son los principales desafíos a los que hoy en día, los científicos de datos, tienen que superar.

Las investigaciones llegan a conclusiones obvias

Uno de los principales motivos por los que invertir en data science y evaluar miles de datos, es que esperamos llegar a conclusiones que no resultan obvias a simple vista. Esperamos que los datos «nos cuenten» una historia diferente, que no somos capaces de ver.

Sin embargo, no siempre es el caso. A menudo se llevan a cabo costosos estudios que acaban por llegar a conclusiones obvias, y en este sentido es frecuente descubrir papers que afirman que tras haber realizado complejos cáculos constatan cómo las personas sin ahorros son las primeras que dejan de pagar sus deudas o que la falta de sueño es una de las causas que se encuentran detrás de de muchos errores de diagnóstico médico. Dicho de otra forma, los estudios proporcionan una «confirmación matemática» de un conocimiento que ya se tiene.

De la causalidad, a la casualidad

Una de las premisas del método científico es la causalidad. Casi todo fenómeno tiene unas causas y unas consecuencias. Y aunque cada vez se acepta más, sigue habiendo poco espacio para la casualidad. A las cosas que pasan de forma completamente aleatoria y porque sí.

Por ejemplo, podemos entrenar a un algoritmo para que estudie la táctica de los mejores jugadores de poker del mundo, con la premisa de que de esta forma, reconozca patrones y se adelante a su próxima jugada. Y aunque en buena parte sin duda puede hacerlo, lo cierto es que en un juego como el poker siempre hay un elemento inesperado, un «instinto» que se resiste a un análisis estadístico matemático y que no se puede prever. Y no es un ejemplo aislado.

A menudo, el análisis de los datos llega a la conclusión de que no hay conclusión posible, que la relación de los datos es débil o inexistente. Esto no tiene por qué ser negativo en sí mismo (se pueden sacar conclusiones muy valiosas de una falta de relación), pero casi siempre supone una decepción.

Los algoritmos no anticipan la historia

Algunos sectores y espacios profesionales avanzan tan rápido que los algoritmos no pueden ayudarnos a anticipar el futuro, sino que se limitan a contarnos o lo que ha pasado, o lo que está pasando.

En el mundo de la moda por ejemplo, pueden resultar útiles para ayudar a comprender a las firmas qué es lo que está ocurriendo en un momento determinado, o qué podría ocurrir el mes que viene, pero no son capaces de anticipar de qué forma van a reaccionar sus clientes ante lo que van a presentar de cara a la próxima temporada.

En este sentido, la ciencia de datos no puede cambiar la dinámica de los datos que está estudiando. Puede entender lo que ha sucedido antes y puede (o tal vez no) que esos datos nos ayuden a entender lo que sucederá en un futuro.

Los datos muchas veces son inconsistentes, incomprensibles o erróneos

A medida que analizamos un volumen mayor de datos, es fácil descubrir cómo se acumulan los errores. Incluso en operaciones tan teóricamente sencillas como analizar datos bancarios, relacionar entre sí los distintos formatos númericos con los que trabajan distintas entidades financieras, puede crear confusiones.

Si esto es así, añadir a la ecuación los datos que producen los distintos dispositivos IoT, los errores de formato que pueden introducir los clientes en distintos formularios, etc. pueden afectar a la validez de los resultados y conclusiones finales. Por supuesto, la ciencia de datos trabaja siempre con un margen de error que puede ser más o menos aceptable y que valida (o no) los resultados.

En los Juegos Olímpicos de Río de Janeiro por ejemplo, los científicos de datos fueron literalmente incapaces de construir una piscina cuyas ocho calles ofreciesen exactamente las mismas condiciones de nado a los atletas. Si algo así, apenas está al alcance del Comité Olímpico Internacional, imaginemos otros proyectos con menos presupuesto.

El filtrado de datos puede llegar a ser muy caro

Producimos enormes cantidades de datos. Tantos, que su análisis puede llegar a ser demencial. Los archivos log de un servidor web ofrecen teras de información sobre qué GIF se ha descargado, las cámaras de seguridad almacenan miles de horas de imágenes en alta resolución en las que realmente… no pasa nada.

El desafío en estos casos no es tanto acceder a los datos, sino encontrar los datos que nos interesa analizar. Encontrar la información que nos interesa, enterrada en una montaña de datos debería ser relativamente sencillo para un equipo potente, toda vez que esta es precisamente su especialidad. Y son los científicos de datos los que deberían crear el modelo adecuado que ayude a la máquina a detectar y analizar la información que interesa.

¿Pero qué ocurre cuando no sabemos exactamente lo que estamos buscando? ¿Cómo entrenamos al modelo a analizar lo «inesperado»? Normalmente la ciencia de datos no tiene más remedio en estos casos que recurrir al filtrado humano. Un trabajo previo que puede llegar a ser realmente caro pero indispensable para que los algoritmos comiencen a trabajar con información que puedan entender y categorizar.

La ciencia de datos no se libra de prejuicios y sesgos

El pasado mes de enero Google Fotos fue noticia y no precisamente para bien. Su tecnología de reconocimiento de imágenes confundía a las personas de piel negra con monos y gorilas. Estamos seguros de que nadie en Google pensó que algo así podría llegar a pasar. Y sin embargo, pese a todos los esfuerzos que hicieron sus científicos de datos para revisar su algoritmo, no fueron capaces de descubrir de qué forma se produjo el error. ¿Su solución? Tan naïf como dejar de identificar a los gorilas.

El ejemplo anterior sirve como muestra a la hora de ilustrar cómo es relativamente sencillo que los prejuicios, sesgos ideológicos, etc. que existen en la sociedad, acaben colándose en los algoritmos y lo que es peor, casi siempre de forma no intencionada. Identificar el sesgo y eliminarlo del algoritmo una vez que sabemos que existe no es, precisamente, una tarea sencilla.

Muchos datos son inaccesibles o imposibles de obtener

Acceder a los datos que nos interesa analizar puede ser en ocasiones, terriblemente complicado o frustrante. Sobre todo si lo que necesitamos es comparar una evolución histórica de cómo ha cambiado un dato determinado (imaginemos los habitantes de distintos barrios de la ciudad y su relación con el número de crímenes cometidos) fácilmente podríamos llegar a la conclusión que en parte o en su totalidad, un conjunto específico de datos no existe, no se ha digitalizado o es prácticamente innacesible.

En otras ocasiones puede que los datos a los que accedemos únicamente existan porque tienen que existir, pero en realidad revelan una alarmante falta de consistencia (por ejemplo formularios que deberían haber sido rellenados por los ciudadanos pero que, a efectos prácticos, acaban siendo rellenados por un esforzado funcionario).

No es posible poner en marcha un proyecto de análisis de datos si en primer lugar no tenemos un acceso real a los datos que necesitamos…lo cual suele convertirse en el primer problema.

 

Periodista tecnológico con más de una década de experiencia en el sector. Editor de MuyComputerPro y coordinador de MuySeguridad, la publicación de seguridad informática de referencia.

Lo más leído