Conecta con nosotros

Noticias

Intel, Cloudera y las necesidades para implantar Big Data

Intel y Cloudera han realizado una evaluación con el fin de determinar tanto el estado general de adopción de Big Data en las empresas.

Publicado el

datos

Para llegar al desarrollo actual de Big Data ha sido necesaria la confluencia de un vasto conjunto de desarrollos y tecnologías, y una de las principales entradas en esa lista es, sin duda, Apache Hadoop.

Es imprescindible porque se ha convertido en uno de los frameworks más empleados para recopilar y gestionar grandes volúmenes de información, estructurada o no, y para procesarla devolviendo las respuestas que se espera obtener.

Así, en ese contexto en el que la herramienta está presente cada día en más centros de datos, Intel y Cloudera han realizado una evaluación con el fin de determinar tanto el estado general de adopción de Big Data en las empresas, como especialmente los usos, necesidades y problemas que detectan los nuevos usuarios de Hadoop a la hora de gestionar sus datos y apps con este framework, que no hace más que sustituir a otras soluciones tradicionales.

¿Qué preocupa más a los administradores de datos?

Lo primero, y aunque por predecible no menos importante, es que lo que más preocupa (y sigue creciendo) es todo lo relacionado con la seguridad de los datos, así como con la llamada gobernanza de los mismos, es decir, quién, cómo y qué control tiene sobre el conjunto global de los datos, así como con sus distintos bloques.

En un primer momento, dado que Hadoop solo se empleaba (mayoritariamente) para recuperar datos de la web y de redes sociales, para incorporarlos al volumen total de datos gestionados, lo relacionado con ambos aspectos recaía, siempre, en los prestadores de dichos servicios.

Sin embargo, a medida que Hadoop ha ido ganando presencia, las empresas han comenzado a emplearlo para gestionar también sus propios datos (no sólo los públicos y de terceros), lo que da lugar a una mezcla de datos propios y externos de diversas fuentes.

Identificar siempre y de manera clara el origen de cada dato concreto, así como saber quién accede a qué y con qué fin en cada momento es algo que preocupa a nada menos que un 60% de los responsables de dichas infraestructuras, y uno de los problemas a los que Cloudera da respuesta con Cloudera Navigator, una herramienta diseñada para tal fin.

La integración de datos de múltiples orígenes, de manera que cada bloque mantenga sus condiciones de seguridad adecuadas, pero que al tiempo éstas no limiten el acceso a los datos que los usuarios (los autorizados para ello, evidentemente) necesiten en cada momento, es un desafío importante.

Y es que combinar las singularidades de cada silo de datos con un entorno de acceso centralizado a los mismos requiere de un desarrollo muy estudiado y que evite que determinadas barreras impidan el acceso óptimo a los datos por parte de quienes los necesitan. Y, además, que dicho acceso sea rápido, es decir, que no lleve asociados tediosos procedimientos que pueden demorar horas, o incluso días, la obtención de los mismos.

Análisis predictivo de datos

Como ya hemos comentado al principio, estamos hablando de Big Data, y un elemento fundamental de Big Data es Machine Learning y, sin duda, el análisis predictivo. Gestionar y poder acceder a un gran volumen de datos es práctico, desde luego, pero lo que verdaderamente marca la diferencia no es el acceso a los mismos, sino que la propia infraestructura sea capaz de analizarlos y extraer conclusiones a partir de las cuales desarrollar predicciones.

En este punto, Hadoop brilla con luz propia, ya que ofrece todo lo necesario tanto para realizar análisis predictivos básicos (que ya son un estándar en la empresa) como otros de tipo avanzado, que según datos del estudio realizado por Intel y Cloudera ya son empleados por el 36% de las empresas.

Para realizar el estudio se han efectuado entrevistas a 319 profesionales de empresas de diversos tamaños, sectores y actividades, todos ellos relacionados con la gestión de datos, así como con la implantación (presente o futura a corto plazo) de Big Data. Los resultados completos del estudio se pueden ver en este informe.

Imagen: Shutterstock

Lo más leído