Opinión

Lo que no debes olvidar en un proyecto de Machine Learning

Publicado el

8 octubre, 2017

por

Machine Learning, Artificial Intelligence, Big Data… Son términos que hoy en día se repiten constantemente en cualquier segmento de negocio, debido sobre todo a que las nuevas tecnologías están impulsando una transformación digital en las compañías, el volumen de datos generados crece exponencialmente y los avances tecnológicos están posibilitando capacidades de almacenamiento, cálculo, desarrollo e implantación de procesos muy superiores a las de hace años.

Existe una gran cantidad de bibliografía sobre todo lo que concierne a algoritmia, figuras de mérito y metodología de modelación del machine learning (ML), pero, para aplicar todo ese marco teórico a soluciones de negocio accionables y medibles, se deben ejecutar una serie de fases que, aunque no sean complejas o parezca que no aportan valor, son fundamentales a la hora de ejecutar el proyecto con éxito. Hablamos de la calidad del dato y el sentido de negocio de la solución, que por lo general son obviadas o ni siquiera tenidas en cuenta en la planificación del proyecto.

La calidad del dato es determinante

Esta será la fase que defina toda la solución. Es imposible (o muy poco probable) que se encuentre una solución satisfactoria si nuestros datos no tienen la calidad suficiente. El nuevo paradigma analítico nos capacita para tener acceso a una cantidad enorme de datos, con diferentes fuentes y estructuras, formato, temporalidades y niveles, que hacen que la labor de construir un entorno analítico de modelación (datos estructurados, limpios y optimizados) del que se alimentarán los algoritmos de ML sea una fase compleja y tediosa pero necesaria y obligatoria. Si a la entrada tenemos datos erróneos, a la salida tendremos resultados erróneos.

Para ello, recomendamos, en primer lugar, centrarse en los datos que a priori ayuden a resolver el problema. Obviamente debemos contar con la experiencia y talento adquirido en proyectos anteriores para estimar qué variables son las que, en una primera iteración, son fundamentales para llegar a nuestros objetivos y realizar las primeras mediciones de resultados. A medida que vayamos avanzando, podemos ir enriqueciendo nuestro universo de variables.

En segundo lugar, asegurarse de que los datos sean correctos. De cada posible variable, debemos eliminar errores, ruido, conflictos, sesgos; y desarrollar tareas automatizadas que incluyan la limpieza, estandarización, optimización y reestructuración del dato para que el algoritmo pueda ejecutarse de manera automatizada. Por lo general, es mejor premiar la calidad a la cantidad de datos a la hora de desarrollar el proyecto

Estas tareas, aunque pueden resultar de valor escaso, sobre todo para los usuarios finales que van a llevar a cabo la aplicación de la solución al problema de negocio, poseen una influencia crucial en el proyecto.

¿Tiene sentido de negocio?

Básicamente, los proyectos basados en modelos ML para predecir/clasificar un evento pueden categorizarse, según si el resultado conlleva o no una acción externa.

En el primer caso, si el evento a predecir es la fuga de clientes, el modelo identifica clientes propensos a ello, pero se debe hacer una acción (comercial en este caso) para evitar que ocurra. En el segundo caso, si el evento es la detección de fraude, en principio poco importa «por qué» ocurre, simplemente se busca maximizar la capacidad de acertar.

Si el proyecto requiere de una acción externa, debemos certificar que los perfiles, conclusiones e inferencias a las que ha llegado el modelo ML concuerdan con las premisas de negocio. La validación del sentido de negocio de la solución debe hacerse posterior y completamente abstraída de la fase de modelación. En el extremo y dependiendo de cada problema en cuestión, nos puede compensar un modelo ML que, aunque acierte menos, sea más interpretable y accionable en términos de negocio, ya que a futuro producirá mayor retorno de la inversión.

En conclusión, el desarrollo satisfactorio de un proyecto ML aplicado a un problema de negocio real tiene más fases que la modelación y elección del algoritmo ganador. En general, no es suficiente con tomar una gran cantidad de datos, dejar que sea la máquina la que aprenda automáticamente y poner en producción la solución obtenida. La experiencia nos justifica que si se quieren tener soluciones sólidas, accionables y estables se deben tener en cuenta aspectos tanto anteriores como posteriores a la elección del algoritmo ML ganador.

Óscar del Ama Esteban, Chief Analytics Officer de Cognodata.

Relacionados:Cognodata machine learning

A continuación

La Administración desde dentro: las TIC como vertebradora y dinamizadora de la economía

No te pierdas

¿Sabe dónde están los datos de su empresa?

Elisabeth Rojas

Periodista especializada en tecnologías corporate, encargada de las entrevistas en profundidad y los reportajes de investigación en MuyComputerPRO. En el ámbito del marketing digital, gestiono y ejecuto las campañas de leads generation y gestión de eventos.