Conecta con nosotros

Noticias

La ciencia de datos se mueve hacia los contenedores y la nube

Publicado el

La ciencia de datos se mueve hacia los contenedores y la nube

La ciencia de datos se está apartando de las soluciones que ha utilizado hasta ahora, sobre todo plataformas para Big Data del estilo de Hadoop, y avanzando más hacia otro tipo de soluciones, como los contenedores y la nube. Así ha quedado reflejado en una encuesta sobre el Estado de la ciencia de datos realizada por Anaconda, una plataforma Python para ciencia de datos.

Para realizar esta encuesta, los responsables de la plataforma han hecho varias preguntas a 4.218 de sus usuarios. Y sus resultados muestran que en la actualidad, Docker es la plataforma de ciencia de datos que se utiliza en el 19% de los casos, un 4% más que Hadoop/Spark, utilizados por un 15% de los encuestados. Mientras tanto, Kubernetes se queda con un 5,8% de estas plataformas. Las bases de datos NoSQL también han demostrado un importante nivel de uso para ciencia de datos y para el almacenamiento y procesado de datos semiestructurados, con un 14%.

A la vista de estos resultados, se puede concluir que el Big Data tradicional, que como hemos comentado es el del estilo Hadoop, está decayendo. Puede ser el inicio del fin de un escenario en el que Hadoop ha dominado la infraestructura de datos en local durante los últimos 10 años. Cuando Hadoop empezó su andadura, allá por el 2005, los paquetes de información que se consideraban entonces Big Data cabían en un servidor y podían procesarse en él.

Pero gracias a los avances en diversos aspectos de la tecnología, y a la cada vez mayor importancia de Internet de las Cosas, la cantidad de datos que es necesario tratar y procesar es mucho mayor. Por tanto, el Big Data tiene ahora mucha mayor envergadura, y precisa recursos más potentes. De ahí la entrada en juego de la nube y los contenedores.

Además, los servicios de datos de Google Cloud, que ocupa el tercer puesto entre los proveedores de nube, se utilizan más que los de AWS y Microsoft Azure en ciencia de datos. Sobre todo, por su oferta específica de servicios de datos. Mientras, Anaconda, la plataforma de la compañía que ha realizado la encuesta, está ganando popularidad entre los desarrolladores de software (15%), los científicos de datos (16%) y los académicos (16%).

En el apartado de visualización, la herramienta más utilizada sigue siendo Matplotlib, una librería Python de ploteado en 2D. No obstante, cada vez cuenta con más competencia, tanto en el terreno de herramientas comerciales (Plotly, Tableau o Microsoft Power BI) como de las open source (ggplot, Bokeh, D3 o Altair).

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído