Conecta con nosotros

Noticias

AWS desvela los detalles de la caída de una de sus zonas en Estados Unidos la semana pasada

Publicado el

AWS

La pasada semana, una de las más de 20 zonas con las que AWS cuenta en todo el mundo sufrió una caída del servicio. Se trata de una zona situada en la costa este de Estados Unidos, lo que hace que la utilicen numerosos servicios de Internet, así como todo tipo de webs y medios de comunicación. Todos dejaron de estar disponibles durante el apagón, que afortunadamente afectó casi exclusivamente a Estados Unidos, y duró varias horas.

Se desconocía qué había causado el apagón, relacionado con Kinesis, pero Amazon ha decidido hacer públicos los motivos del mismo: añadir capacidad en exceso a sus sistemas, lo que hizo que «los servidores superasen el número máximo de hilos permitidos por la configuración del sistema operativo«.

El servicio Kinesis de AWS, que los clientes de la nube de la compañía emplean de manera directa, es además la base de otras áreas de las operaciones de AWS. Los servidores de la flota de Kinesis tienen que comunicarse entre ellos, y para hacerlo se crean nuevos hilos para cada uno de los servidores restantes en la flota de frontend. Según apuntan desde la compañía, esto afecta a miles de servidores, y cuando se añaden otros nuevos puede llevar hasta una hora que la noticia de que hay servidores nuevos en la flotan lleguen a todos los que ya estaban en ella.

Por tanto, lo que sucedió al agregar nuevos servidores fue que «el resto de servidores de la flota superó el número máximo de hilos permitidos por la configuración de un sistema operativo«.  En AWS pronto se dieron cuenta del problema, pero para arreglarlo tenían que reiniciar todo sus sistemas Kinesis. Esto implica reiniciar solo unos cuantos servidores al mismo tiempo, y dado que el servicio utiliza, como hemos mencionado, varios miles de servidores, la recuperación del fallo fue bastante más lenta de lo que a AWS y sus clientes les habría gustado.

La compañía ya ha decidido tomar varias medidas para evitar este tipo de problemas en el futuro. La primera es utilizar servidores de mayor capacidad. Para ello, según apuntan en el post, «a muy corto plazo, cambiaremos a servidores con CPUs más potentes y más memoria, reduciendo el número de servidores y, por tanto, los hilos que necesita cada servidor para comunicarse con el resto de la flota«.

Según apuntan desde AWS, esta medida «generará espacio libre significativo en la cuenta de hilos utilizados, dado que el número de los que debe mantener cada servidor es directamente proporcional al número de servidores de la flota«.

Otro de los planes de la compañía para evitar caídas como esta es poner en marcha un nuevo «sistema de alarma puntual que informe sobre el consumo de hilos del servicio«, aparte de tener planes de «aumentar el límite de hilos en la configuración de nuestro sistema operativo, lo que creemos que nos dará un número significativo más de hilos por cada servidor, además de un mayor margen de seguridad«. Por otro lado, también se plantean el aislamiento de servicios a demanda como CloudWatch para separar servidores dedicados a ello de Kinesis.

En el post también explican por qué los paneles de control de Amazon ofrecían una información bastante escasa: porque también utilizan un servicio que depende de Kinesis. AWS ha desarrollado un sistema que tiene pocas dependencias para llevar información al panel de control que informa sobre el estado del servicio que usa como página pública de estado.

Este funcionaba tal y como se esperaba, pero se encontraron con «varios retrasos durante la parte inicial de la incidencia, dado que es una herramienta más manual y menos familiar para nuestros operadores de servicio«. Debido a esto, la nube utilizó el Panel de control de salud personal, que solo es visible para los clientes afectados por una incidencia.

AWS también ha aprovechado el post para disculparse con sus clientes y quieren utilizaban los servicios de los que resultaron afectados, y apuntar que «aunque estamos orgullosos de nuestro extenso historial de disponibilidad con Amazon Kinesis, sabemos lo crítico que es este servicio, y cómo el resto de servicios de AWS que sufrieron el impacto lo son para nuestros clientes, sus aplicaciones y usuarios finales, y sus negocios. Haremos todo lo posible para aprender de este evento y utilizarlo para mejorar todavía más nuestra disponibilidad en el futuro«.

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Lo más leído