Conecta con nosotros

Noticias

AMD confirma un error muy curioso que afecta a los procesadores EPYC Rome

Publicado el

AMD

La compañía de Sunnyvale ha reconocido un error que afecta a los procesadores AMD EPYC Rome y que, la verdad, resulta tan curioso y tan interesante que no he podido perder la ocasión de contároslo. Antes de nada, os recuerdo que esa generación CPUs está basada en la arquitectura Zen 2 y que, por tanto, ya lleva unos años en el mercado.

Según AMD, el error se resume tal que así: «los núcleos no podrán salir del estado CC6 (reposo) tras pasar 1.043 días desde el último reinicio del sistema». Esto quiere decir que es uno de los núcleos del procesador es incapaz de salir del estado de reposo cuando se utiliza un procesador AMD EPYC Rome de forma ininterrumpida durante 1.044 días, lo que equivale aproximadamente a unos 34 meses.

En la descripción oficial que ha dado AMD podemos ver que el problema ocurre porque la CPU REFCLK cuenta ticks de 10 ns en un entero con signo de 54 bits, y si cuenta un poco más de 9 cuatrillones de estos tics se produce un desbordamiento en un periodo aproximado de 1.043 días.

AMD

Una vez que se produce este desbordamiento, los núcleos se quedan atascados para siempre en el modo reposo y se convertirán en «zombis» que no aceptarán ninguna solicitud de interrupción externa que pudiese hacerles salir de dicho modo. La única manera de evitar este error es apagar o reiniciar el sistema para que se resetee el contador y todo vuelva a la normalidad, o deshabilitar el estado CC6, pero siempre antes de que se produzca el fallo.

Lo realmente impresionante de todo esto es que un equipo basado en CPUs AMD EPYC Rome tiene que estar funcionando sin interrupciones, es decir, sin ser apagado o reseteado, durante casi tres años para que ocurra este error.

Dado que estamos hablando de un procesador para servidores esto sería normal desde la perspectiva de la importancia que tiene el uso continuado en este tipo de entornos, pero no debemos olvidarnos de que, al final, también hay que parar para instalar actualizaciones importantes y parches de seguridad, y que estos normalmente obligan a reiniciar el sistema. AMD ha confirmado que no tiene previsto resolver este error.

Editor de la publicación on-line líder en audiencia dentro de la información tecnológica para profesionales. Al día de todas las tecnologías que pueden marcar tendencia en la industria.

Lo más leído