Conecta con nosotros

Opinión

Cómo almacenar (petabytes de) datos generados por máquinas

Publicado el

Toshiba

La cantidad de datos en todo el mundo crece varios miles de millones de terabytes cada año porque cada vez son las máquinas y los dispositivos que los generan. Pero ¿dónde los guardaremos? También en la era de la Internet de las Cosas (IoT), los discos duros continúan siendo indispensables.

Los volúmenes de datos se han multiplicado en décadas recientes, pero la verdadera explosión de los datos todavía está por llegar. Mientras que en el pasado las personas eran los principales creadores de datos, en forma de fotos, vídeos y documentos, con el advenimiento de la era de IoT, las máquinas, los dispositivos y los sensores se están convirtiendo en los mayores productores de datos. Ya existen muchos más que personas y generan datos mucho más rápido que nosotros. Por ejemplo, un solo coche autónomo genera varios terabytes por día. También podemos pensar en infraestructuras como el acelerador de partículas del CERN, que genera un petabyte por segundo, aunque “sólo” se almacenan alrededor de 10 petabytes al mes para posteriores análisis.

Además de la conducción autónoma y la investigación, la videovigilancia y la industria son los principales contribuyentes a esta avalancha de datos. La consultora IDC prevé que el volumen global de datos pasará de 45 zettabytes en 2020 a 175 zettabytes en 2025. Esto significa que, en un plazo de seis años, se generarán tres veces más datos del total existente en 2019, es decir, 130 zettabytes más o, lo que es lo mismo, 130.000 millones de terabytes más.

Una gran parte de estos datos será evaluada en el punto de creación, por ejemplo, en los sensores de los vehículos autónomos o las plantas de producción, lo que conocemos como edge computing. En este caso, los rápidos resultados y las reacciones en tiempo real tienen un carácter esencial, por lo que el tiempo requerido para la transmisión de los datos y su análisis central es inaceptable. Sin embargo, la capacidad de almacenamiento in situ y la potencia informática son limitadas, de manera que más tarde o más temprano la mayor parte de los datos termina en un centro de datos. Aquí pueden procesarse y combinarse con datos procedentes de otras fuentes, analizarse y archivarse.

Esto plantea desafíos importantes para las infraestructuras de almacenamiento de empresas o de instituciones de investigación. Deben poder absorber un flujo constante de grandes cantidades de datos y almacenarlos de forma fiable. Esto solo es posible con arquitecturas escalables que proporcionan capacidades de almacenamiento de varias docenas de petabytes y pueden expandirse de forma continua. Para ello necesitan proveedores de hardware de almacenamiento fiables que puedan satisfacer esta demanda continua y creciente. Después de todo, no podemos permitirnos que los datos acaben fluyendo hacia el vacío. La nube pública a menudo se promociona como una solución adecuada. Pero, aún así, la realidad es que el ancho de banda para los volúmenes de datos que discutimos es insuficiente y los costes no resultan económicamente viables.

Para las organizaciones que recopilan datos IoT, el almacenamiento se convierte, en cierto sentido, en una commodity. No se consume en el verdadero sentido de la palabra, pero se adquiere de forma regular y requiere una inversión continua, al igual que otros bienes de consumo Las instituciones de investigación, como el CERN, que ya procesan y almacenan grandes volúmenes de datos, es una buena imagen de cómo podrían verse las infraestructuras de almacenamiento y los modelos de adquisición de capacidad de almacenamiento en la era IoT. El centro europeo de investigación en física de partículas agrega continuamente a su centro de datos nuevas unidades que amplían su almacenamiento, cada una de las cuales contiene varios centros de discos duros de la última generación. En total, sus 100.000 discos duros han alcanzado una capacidad de almacenamiento total de 350 petabytes.

El precio determina el medio de almacenamiento

El ejemplo del CERN demuestra que no hay forma de evitar los discos duros cuando se trata de almacenar cantidades de datos tan enormes. Los discos duros siguen siendo el medio más económico que cumple con el doble requisito de espacio de almacenamiento y fácil acceso. 

En comparación, la cinta es una opción económica, pero no es adecuada en tanto que medio offline y solo está indicada para el archivo de datos. La memoria flash, por otro lado, sigue siendo de ocho a 10 veces más cara por unidad que los discos duros. Y aunque los precios de los SSD están cayendo, lo hacen a un ritmo similar al de los HDD. Además, las unidades de disco duro son muy adecuadas para cumplir con los requerimientos de rendimiento de los entornos de almacenamiento de alta capacidad. Un solo HDD puede ser inferior a un solo SSD, pero la combinación de varios HDD que giran rápidamente alcanza valores de IOPS muy altos que pueden proporcionar a las aplicaciones de análisis los datos que necesitan con fiabilidad.

Al final, el precio por sí solo es un factor decisivo, especialmente porque los volúmenes de datos que se almacenarán en el mundo IoT solo pueden comprimirse mínimamente para ahorrar un espacio de almacenamiento muy valioso. Cuando es posible, la compresión normalmente se realiza en el punto final o lo más próximo a este para reducir la cantidad de datos a transmitir. Por lo tanto, llega en forma comprimida al centro de datos y debe almacenarse sin más compresión. Además, la deduplicación ofrece pocos ahorros potenciales porque, a diferencia de las copias de seguridad o de los recursos compartidos de archivos corporativos típicos, apenas hay datos idénticos.

Los HDD seguirán siendo irremplazables durante años

En los próximos años poco cambiará y los discos duros seguirán llevando la carga principal de almacenamiento de los datos IoT. Las capacidades de producción de flash simplemente seguirán siendo demasiado bajas para que los SSD superen a los HDD. Para cubrir la demanda actual de almacenamiento únicamente con SSD, la producción de flash tendría que aumentar significativamente.

Teniendo en cuenta que los costes de construcción de una sola instalación para la fabricación de memoria flash asciende a varios miles de millones de dólares, se trata de una empresa difícil de financiar. Además, solo resultaría en una mayor producción de flash trascurridos aproximadamente dos años que, por otra parte, solo cubriría la demanda de 2020 y no la de 2022.

La producción de discos duros, por su parte, pueden incrementarse mucho más fácilmente porque se necesita menos producción en sala limpia que en la producción de semiconductores. Así mismo, el desarrollo de los discos duros avanza de forma continua y nuevas tecnologías como HAMR (grabación magnética asistida por calor) y MAMR (grabación magnética asistida por microondas) siguen aumentando la capacidad. Los expertos asumen que la capacidad de almacenamiento de los discos duros seguirá aumentado a un ritmo de alrededor de 2 terabyte anuales durante algunos años más con un coste constante. Así, IDC predice que, a finales de 2025, más del 80% de la capacidad requerida en el sector empresarial para centros de datos centrales y periféricos se seguirá obteniendo con HDD y menos del 20% con SSD y otros medios flash.

Firmado: Rainer W. Kaese, director sénior de la división de Productos de Almacenamiento de Toshiba Electronics Europe GmbH

Lo más leído