Diversos SSD de HP están muriendo antes de lo esperado

Así lo ha alertado HP, que ha tenido que lanzar una actualización de firmware para sus unidades SAS (Serial-Attached SCSI) que utilizan en servidores. Sin ese firmware, los SSD de la compañía morirían exactamente a las 32.768 horas de estar operativos, o a los 3 años, 270 días y 8 horas.

Las unidades afectadas se usan por servidores y empresas para almacenar información, incluyendo modelos de las gamas HPE ProLiant, Synergy, Apollo, JBOD D3xxx, D6xxx, D8xxx, MSA, StoreVirtual 4335 y StoreVirtual 3200.

La compañía ha tenido que lanzar la actualización de firmware después de darse cuenta de que había unidades que estaban fallando y cuyos datos han pasado a ser imposibles de recuperar, y la unidad no puede volver a usarse nunca. Sólo aquellos que estuvieran en un modo de RAID que permita recuperar los datos aunque falle una unidad podrán recuperar los datos.

En total hay 20 modelos afectados, y de momento sólo han lanzado una actualización de software para ocho de ellos desde el 22 de noviembre que empezaron a lanzarlas. Las próximas actualizaciones irán llegando en la segunda semana del mes de diciembre a partir del día 9, donde todas las unidades deberían tener ya solucionado el problema para entonces.

HP usó probablemente enteros de 16 bits para contar las horas

La única manera de solucionar la muerte programada de las unidades SSD es instalar el nuevo firmware. Además, si las unidades se instalaron a la vez, morirán prácticamente en el mismo instante. Un usuario de Reddit ha confirmado que está afectado por el fallo, y pudo ver cómo seis de sus unidades SSD murieron en cuestión de 15 minutos.

Además, HP no encontró la solución por sí misma, sino que fue otro fabricante de SSD quien le explicó qué estaba pasando con sus unidades SSD y por qué estaban muriendo antes de lo esperado.

El fallo parece ser un clarísimo error de diseño, donde el sistema del SSD sólo puede contar hasta 215 valores, que da las 32.768 horas a partir de las cuales la unidad SSD no podía registrar más horas de funcionamiento y se cuelga. Esto ocurre cuando se usan enteros de 16 bits, cuyo valor máximo positivo es 32.767, a partir del cual se desborda y pasa a valores negativos, y hace que el firmware se cuelgue porque no puede contar la hora con números negativos.

El firmware que hay que instalar para solucionar el fallo es la versión HPD8. En el repositorio oficial de HP sobre el fallo está toda la información de cómo actualizar.

 

Fuente: adslzone