Noticias

AWS desvela los detalles de la caída de una de sus zonas en Estados Unidos la semana pasada

Publicado el

30 noviembre, 2020

por

La pasada semana, una de las más de 20 zonas con las que AWS cuenta en todo el mundo sufrió una caída del servicio. Se trata de una zona situada en la costa este de Estados Unidos, lo que hace que la utilicen numerosos servicios de Internet, así como todo tipo de webs y medios de comunicación. Todos dejaron de estar disponibles durante el apagón, que afortunadamente afectó casi exclusivamente a Estados Unidos, y duró varias horas.

Se desconocía qué había causado el apagón, relacionado con Kinesis, pero Amazon ha decidido hacer públicos los motivos del mismo: añadir capacidad en exceso a sus sistemas, lo que hizo que «los servidores superasen el número máximo de hilos permitidos por la configuración del sistema operativo«.

El servicio Kinesis de AWS, que los clientes de la nube de la compañía emplean de manera directa, es además la base de otras áreas de las operaciones de AWS. Los servidores de la flota de Kinesis tienen que comunicarse entre ellos, y para hacerlo se crean nuevos hilos para cada uno de los servidores restantes en la flota de frontend. Según apuntan desde la compañía, esto afecta a miles de servidores, y cuando se añaden otros nuevos puede llevar hasta una hora que la noticia de que hay servidores nuevos en la flotan lleguen a todos los que ya estaban en ella.

Por tanto, lo que sucedió al agregar nuevos servidores fue que «el resto de servidores de la flota superó el número máximo de hilos permitidos por la configuración de un sistema operativo«. En AWS pronto se dieron cuenta del problema, pero para arreglarlo tenían que reiniciar todo sus sistemas Kinesis. Esto implica reiniciar solo unos cuantos servidores al mismo tiempo, y dado que el servicio utiliza, como hemos mencionado, varios miles de servidores, la recuperación del fallo fue bastante más lenta de lo que a AWS y sus clientes les habría gustado.

La compañía ya ha decidido tomar varias medidas para evitar este tipo de problemas en el futuro. La primera es utilizar servidores de mayor capacidad. Para ello, según apuntan en el post, «a muy corto plazo, cambiaremos a servidores con CPUs más potentes y más memoria, reduciendo el número de servidores y, por tanto, los hilos que necesita cada servidor para comunicarse con el resto de la flota«.

Según apuntan desde AWS, esta medida «generará espacio libre significativo en la cuenta de hilos utilizados, dado que el número de los que debe mantener cada servidor es directamente proporcional al número de servidores de la flota«.

Otro de los planes de la compañía para evitar caídas como esta es poner en marcha un nuevo «sistema de alarma puntual que informe sobre el consumo de hilos del servicio«, aparte de tener planes de «aumentar el límite de hilos en la configuración de nuestro sistema operativo, lo que creemos que nos dará un número significativo más de hilos por cada servidor, además de un mayor margen de seguridad«. Por otro lado, también se plantean el aislamiento de servicios a demanda como CloudWatch para separar servidores dedicados a ello de Kinesis.

En el post también explican por qué los paneles de control de Amazon ofrecían una información bastante escasa: porque también utilizan un servicio que depende de Kinesis. AWS ha desarrollado un sistema que tiene pocas dependencias para llevar información al panel de control que informa sobre el estado del servicio que usa como página pública de estado.

Este funcionaba tal y como se esperaba, pero se encontraron con «varios retrasos durante la parte inicial de la incidencia, dado que es una herramienta más manual y menos familiar para nuestros operadores de servicio«. Debido a esto, la nube utilizó el Panel de control de salud personal, que solo es visible para los clientes afectados por una incidencia.

AWS también ha aprovechado el post para disculparse con sus clientes y quieren utilizaban los servicios de los que resultaron afectados, y apuntar que «aunque estamos orgullosos de nuestro extenso historial de disponibilidad con Amazon Kinesis, sabemos lo crítico que es este servicio, y cómo el resto de servicios de AWS que sufrieron el impacto lo son para nuestros clientes, sus aplicaciones y usuarios finales, y sus negocios. Haremos todo lo posible para aprender de este evento y utilizarlo para mejorar todavía más nuestra disponibilidad en el futuro«.

Categorías relacionadas:Amazon AWS zonas de AWS

A continuación

Reino Unido prohibe instalar equipo de red de Huawei en sus redes 5G desde septiembre de 2021

No te pierdas

Tony Hsieh, ex CEO de Zappos, fallece a los 46 años tras un incendio doméstico

Celia Valdeolmillos

Redactora de tecnología con más de 15 años de experiencia, salté del papel a la Red y ya no me muevo de ella. Inquieta y curiosa por naturaleza, siempre estoy al día de lo que pasa en el sector.

Click para comentar

multa récord antimonopolio contra Google

A FondoHace 6 días

El TUE confirma la multa récord antimonopolio contra Google

EntrevistasHace 3 días

«Proporcionamos ciberseguridad de gama alta a nuestros clientes, sin importar su tamaño»

La gigafactoría española de IA concreta su directiva y va tomando forma

NoticiasHace 7 días

La gigafactoría española de IA concreta su directiva y va tomando forma

protección de los sistemas internos de IA

Notas de prensaHace 5 días

La protección de los sistemas internos de IA encabeza las preocupaciones en ciberseguridad

MuyComputerPRO

AWS desvela los detalles de la caída de una de sus zonas en Estados Unidos la semana pasada

Noticias

AWS desvela los detalles de la caída de una de sus zonas en Estados Unidos la semana pasada

Las ventas de ordenadores caen un 3,6%, lastradas por el precio de memoria y almacenamiento

«La clave no es la IA, es la confianza en el dato»

La mayoría de españoles cree que depender de tecnología ajena a la UE es peligroso para la seguridad

Quantum Labs instalará en la Universidad de Málaga el ordenador cuántico más potente de Europa

DeepSeek trabaja en el desarrollo de su propio chip para IA

Samsung supera a NVIDIA como la compañía más rentable del mundo

Anthropic suspende el acceso a sus modelos de IA, Fable 5 y Mythos 5

Vass prepara un ERE en España que puede afectar al 13% de sus empleados

ASUS lanza la supercomputadora de IA de escritorio, ExpertCenter Pro ET900N G3

Disponible la primera versión de Euro-Office como parte de Nextcloud Hub

¿Quién lidera la transformación digital con IA en España?

«Hoy la tecnología no es algo auxiliar, sino que define los modelos de negocio»

Las ventas de ordenadores caen un 3,6%, lastradas por el precio de memoria y almacenamiento

WWDC26: Apple Intelligence lleva la inteligencia a todas las herramientas de su ecosistema

Energía y refrigeración, el futuro de la IA y los centros de datos autosuficientes

Nextcloud Hub 26 Spring: más solidez, gobernanza y opciones de elección

Disponible la primera versión de Euro-Office como parte de Nextcloud Hub

«Hoy la tecnología no es algo auxiliar, sino que define los modelos de negocio»

Lo más leído

MuyComputerPRO

AWS desvela los detalles de la caída de una de sus zonas en Estados Unidos la semana pasada

También te puede gustar

Las ventas de ordenadores caen un 3,6%, lastradas por el precio de memoria y almacenamiento

«La clave no es la IA, es la confianza en el dato»

La mayoría de españoles cree que depender de tecnología ajena a la UE es peligroso para la seguridad

Quantum Labs instalará en la Universidad de Málaga el ordenador cuántico más potente de Europa

DeepSeek trabaja en el desarrollo de su propio chip para IA

Samsung supera a NVIDIA como la compañía más rentable del mundo

Anthropic suspende el acceso a sus modelos de IA, Fable 5 y Mythos 5

Vass prepara un ERE en España que puede afectar al 13% de sus empleados

ASUS lanza la supercomputadora de IA de escritorio, ExpertCenter Pro ET900N G3

Disponible la primera versión de Euro-Office como parte de Nextcloud Hub

¿Quién lidera la transformación digital con IA en España?

«Hoy la tecnología no es algo auxiliar, sino que define los modelos de negocio»

Las ventas de ordenadores caen un 3,6%, lastradas por el precio de memoria y almacenamiento

WWDC26: Apple Intelligence lleva la inteligencia a todas las herramientas de su ecosistema

Energía y refrigeración, el futuro de la IA y los centros de datos autosuficientes

Nextcloud Hub 26 Spring: más solidez, gobernanza y opciones de elección

Disponible la primera versión de Euro-Office como parte de Nextcloud Hub

«Hoy la tecnología no es algo auxiliar, sino que define los modelos de negocio»

Lo más leído