Bueno el comunicado que me han mandado esta en pdf y no se como subirlo al foro, así que copio y pego aquí su contenido para que sepamos que es lo que ha pasado, aunque bueno, creo que esto será mas bien para los entendidos ¬¬ ¬¬ .. :
Estimado cliente:
En primer lugar, queremos pedirle disculpas por los inconvenientes que la avería que
sufrimos ayer haya podido ocasionarle a usted y a su empresa. Le informamos que hemos
puesto en marcha las medidas oportunas, para asegurarnos que esta incidencia no vuelva a
repetirse.
A continuación le ofrecemos un detalle exhaustivo de las causas de este incidente y de todas
las medidas que fuimos tomando hasta llegar a su solución.
Sobre las 12.00 de la mañana del martes 5 de febrero, se detecta lentitud al acceso
en los volúmenes de una de nuestras cabinas de almacenamiento HP P4000. Dicha
cabina, hasta ayer, funcionaba de forma totalmente correcta.
Inmediatamente, nuestro equipo técnico procede a realizar un análisis de la causa
de esta degradación en el rendimiento de la máquina, y nos ponemos en contacto
con el servicio técnico de HP ESPAÑA para que diagnostiquen los logs del sistema.
A mediodía, ante la falta de respuesta por parte de nuestro proveedor HP y por la
urgencia de restablecer el servicio, se decide actuar sobre la cabina para intentar
acotar el problema y dar continuidad cuanto antes a los servicios de nuestros
clientes.
Después de este reinicio de la cabina de almacenamiento, detectamos una mejoría
en el acceso de los volúmenes, aunque desafortunadamente, tres de ellos, siguen
sin responder adecuadamente, lo que penaliza el rendimiento global de la cabina.
Para poder aislar estos volúmenes y que el resto de servicios siguieran
funcionando adecuadamente, decidimos realizar unas tareas de
conexión/desconexión de los sistemas blade.
Tras mucha insistencia al soporte técnico de nuestro proveedor, mientras
estábamos realizando la operación de aislamiento de los volúmenes, detectamos
un fallo en la infraestructura dos discos, cuya garantía está soportada por HP.
Durante el proceso de reinicio, optamos por poner en marcha una resincronización
del raid (por la detección de los discos en fallo) que dura alrededor de 30 minutos,
al final del cual, conseguimos acceso a uno de los 3 volúmenes que estaba dando
problemas.
Nuestro equipo técnico, procedió a levantar los servicios de clientes albergados en
los volúmenes afectados, mientras seguimos insistiendo de forma reiterada a HP
para que solucionen cuanto antes la incidencia.
A última hora de la tarde el fabricante escala la incidencia a nivel 2 y poco después
a máximo nivel, ingeniería internacional (EEUU). Desde allí nos recomiendan
realizar un cambio de paridad de forma que se recupera el acceso a uno de los
volúmenes dañados. Quedando ya únicamente un volumen por corregir, que
finalmente es recuperado a las 01:30 horas de esta madrugada tras realizar una
operación de desbloqueo.
Durante la noche hemos estado realizando tareas de revisión y chequeo de todos
los discos de las máquinas, lo que demora la puesta en marcha del servicio, ya que
es una operación lenta, que sirve para detectar posibles inconsistencias en los
discos.
A altas horas de la madrugada, contactamos de nuevo con HP para planificar un
cambio en los discos, que se realizará entre hoy y mañana, ya que el proceso de
reconstrucción dura unas 16 horas aproximadamente para cada disco. Esto se
solventará sin que ninguno de nuestros clientes se vea afectado.
Con el fin de evitar que una incidencia de este tipo vuelva a producirse, estamos
implementando unas rutinas de inspección adicionales en nuestra red, que impedirán estos
errores en el futuro, según nos ha asegurado el fabricante de la máquina.
Al mismo tiempo, estamos manteniendo continuas conversaciones con HP, para conseguir
su puesta a punto lo antes posible.
Reiteramos de nuevo nuestras más sinceras disculpas. Somos conscientes de lo importante
que son nuestros servicios para los negocios de nuestros clientes, y del trastorno que les
hemos ocasionado. Nos comprometemos a poner todos nuestros recursos técnicos y
humanos, para que esta incidencia no se vuelva a repetir y seguiremos apostando por la
mejora continua en nuestros servicios.
Durante todo este mes seguiremos implementando nuevas cosas para que a principios de
Marzo estemos al 100 %
Un saludo
|