Conecta con nosotros

Noticias

Google Cloud anuncia el motor de almacenamiento de data lake BigLake

Publicado el

Google Cloud

Google Cloud ha llegado a su evento Cloud Data Summit con varias novedades. Entre ellas, la versión de prueba de un nuevo motor de almacenamiento de data lake, BigLake, lanzado en el marco de los planes de Google Cloud para eliminar todo tipo de los límites relacionados con los datos, así como para eliminar los obstáculos entre data lake y data warehouse, y para facilitar el análisis de los datos que albergan.

BigLake se ha diseñado para ofrecer una interfaz unificada para cualquier capa de almacenamiento, incluyendo el data lake y el data warehouse, sin importar el formato. Se ha desarrollado con la intención de aunar la experiencia de Google con la ejecución y gestión de su data warehouse BigQuery y extenderlos a los data lakes de Google Cloud Storage. Así pretende combinar lo mejor de los data lakes y los data warehouses en un único servicio, que consiga abstraerse de los formatos y sistemas de almacenamiento subyacentes.

Además, los datos se pueden almacenar en BigQuery o en AWS3 o Azure Data Lake Storage Gen2. A través de BigLake, los desarrolladores consiguen acceso a un motor de almacenamiento uniforme, y a la capacidad de hacer querys a los servicios de almacenamiento de datos subyacentes a través de un único sistema. Y sin la necesidad de mover o duplicar datos.

Mediante etiquetas de políticas, BigLake permite a los administradores configurar sus políticas de seguridad a nivel de tabla, fila y columna. Esto incluye a los datos almacenados en Google Cloud, así como en los dos sistemas de terceros compatibles. Paralelamente, el servicio de analíticas de Google, BigQuery Omni, se encarga de activar los controles de seguridad, que aseguran que solo los datos adecuados fluyen a herramientas como Spark, Presto o TensorFlow. Además, el servicio se integra también con Google Dataplex para ofrecer funciones adicionales de gestión de datos.

BigLake ofrecerá también controles de acceso fuertemente diferenciado, y su API llegará a Google Cloud. además de trabajar con formatos de archivo de Apache Parquet y de motores de proceso open source, como Apache Spark o Beam, además de formatos de tabla de Delta o Iceberg.

Además de BigLake, Google también ha confirmado que su base de datos SQL distribuida globalmente Spanner contará pronto con una función nueva: cambio de flujos (change streams). Con ella, los usuarios podrán rastrear los cambios de una base de datos en tiempo real. Tanto si se trata de inserciones como de actualizaciones o borrado de datos.

Google Cloud ha anunciado también que su herramienta de gestión del ciclo de vida de un proyecto de ciencia de datos, Vertex AI Workbench, ya ha finalizado su fase de prueba y ya está disponible su versión definitiva. Connected Sheets para Looker ya está disponible también, así como la posibilidad de acceder a modelos de datos de Looker en su herramienta Data Studio BI.

Además de varias novedades relacionadas con Google Cloud, Google ha anunciado también la creación de la Data Cloud Alliance, una alianza de la que forma parte la compañía junto con empresas como Confluentes, Databricks, Dataiku, Deloitte, Elastic, Fivetran, MongoDB, Neo4j, Redis y Starburst.

Los miembros de la alianza se encargarán de ofrecer infraestructura, APIs y soporte a la integración para asegurar que es posible la portabilidad y accesibilidad de datos entre diversas plataformas y productos, y entre varios entornos. También colaborarán en nuevos modelos de datos, procesos e integraciones de plataforma, que sean comunes para el sector. Todo para mejorar la portabilidad de datos.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído