Noticias

Los analistas, sobre la caída de S3: «La gente debería exigir más a AWS»

Publicado el

7 marzo, 2017

por

La semana pasada, varios sistemas de Amazon Web Services sufrieron un apagón que ocasionó problemas a numerosas webs en todo el mundo. Entre ellas estaban Reddit, Netflix, Quora, Medium, Imgur, servicios para profesionales y empresas como Slack o Trello y medios como Business Insider o The Verge. Todos estuvieron varias horas innacesibles, se cargaban con mucha lentitud o no eran incapaces, por ejemplo, de procesar pagos electrónicos. Finalizado el incidente, en Amazon se pusieron a investigar qué había motivado semejante apagón y, tras muchas pesquisas, llegaron a la conclusión de que se había debido a un fallo humano. En concreto, a un error de escritura en una línea de código.

Así lo ha confirmado la propia compañía en un comunicado, en el que explican al detalle lo sucedido. Según recoge Computerworld, «el equipo de Amazon S3 estaba depurando un incidente que ocasionaba que el servicio de pagos de S3 funcionase con más lentitud de lo esperado. Un miembro autorizado del equipo de S3ejecutó un comando incluido en un libro de instrucciones, con el que se desconectaría un pequeño número de servidores de uno de los subsistemas de S3 que se utilizan en el proceso de facturación de S3«. Entonces, según el propio comunicado «una de las entradas del comando se escribió de manera incorrecta, y se desconectaron más servidores de lo que se pretendía«.

AWS afirma en el mensaje que su equipo de ingenieros ha tomado nota del fallo y que están haciendo cambios para evitar que un error así vuelva a ocurrir en otra ocasión. Para ello, «aunque la eliminación de la capacitación es una práctica operativa clave, en el caso de esta instancia, la herramienta empleada permitía que se desconectase demasiada capacidad con mucha rapidez. Hemos modificado dicha herramienta para eliminar la capacidad con más lentitud, además de agregar mecanismos de seguridad para evitar que se elimine cuando vaya a desembocar en que cualquier subsistema se quede por debajo de su nivel de capacidad mínima necesaria«.

De esta forma, la introducción de un comando erróneo no debería desembocar en otro apagón. Pero, para asegurarse, los ingenieros están auditando otros sistemas para asegurarse de que cuentan con los mecanismos de seguridad necesarios para evitar estos fallos. Además, harán cambios para mejorar el tiempo de recuperación de varios subsistemas s3 clave.

A los analistas no les ha pillado de sorpresa todo esto. Según revelan las investigaciones al respecto de Zeus Kerravala, de ZK Research, «el 37% de los apagones en tecnologías de la información tienen su origen en un error humano. Es un dato que asusta, y pone de manifiesto que a pesar de los muchos avances que hay en TIC, todavía dependemos en gran medida de procesos manuales. Es un ejemplo de lo que podrían ayudar una mejor automatización y el machine learning«.

Con respecto a si este fallo pasará factura a AWS, Patrick Moorhead, de Moor Insights & Strategy, está seguro de que sí, y además a corto plazo: «Es increíble pensar que un error de una persona en un comando puede dejar sin servicio a millones de usuarios. La gente debería exigir más a AWS. Este incidente hará que las empresas se lo piensen dos veces antes de migrar ciertas cargas de trabajo y apps a la nube pública, y les dará motivos para considerar la implantación de una nube privada«.