Fuego en la nube
Ocio@
28 Apr 2021. Actualizado a las 05:00 h.
Como todos los últimos fines de semana de cada mes, la Bonilista acoge a una firma invitada. En esta ocasión, tenemos el placer de contar con Txetxu Velayos, co-fundador de STR Sistemas y experto en administración de sistemas informáticos.
10 de Marzo de 2021, 07:10 de la mañana, nuestro horario de soporte todavía no ha comenzado pero leo en el móvil un mail de un cliente indicando que sus webs están caídas. Está alojado en OVH y pienso «seguro será algún problema de conectividad con el NFS o algo así».
Minutos después, ya en el ordenador confirmo que la plataforma del cliente está caída, pero no completamente, mis sospechas de conectividad al NFS aumentan. Reviso monitores y ¡sorpresa! cientos de servicios y decenas de hosts de múltiples clientes en rojo, todos ellos alojados en OVH.
Reviso la página de status de OVH sin encontrar nada, así que voy a la fuente de información más fiable: twitter. En la primera búsqueda encuentro múltiples tweets con hashtags como #OVHFIRE y #OVHDOWN. «¿Fire? ¿cómo que fire?» - pienso - y llego al hilo todavía activo de Octave Klaba, fundador y CEO de OVH, explicando que ha habido un incendio en la región de Estrasburgo en el datacenter SBG2, que según Baxel, fue construido en 2017 con una capacidad para 30.000 servidores. Su primer tweet ya daba idea de que no era algo menor al añadir «We recommend to activate your Disaster Recovery Plan», a lo que creo que le faltó añadir «if you have one».
Según Netcraft más del 18 % de las IPs de OVH estaban offline la mañana del incendio, eso se traduce en 464.000 dominios afectados y 3,6 millones de web caídas. Desde páginas de pequeños negocios o blogs, hasta webs de Administraciones Públicas pasando por tiendas online, pequeños revendedores de hosting o servidores de juegos con cientos de miles de usuarios. Muchas de estas webs no han recuperado el servicio a día de hoy (OVH sigue recuperando los últimos servidores) y muchas no lo harán por haber perdido todos sus datos y backups, algunos de ellos backups de pago teóricamente almacenados por triplicado.
Lo que vino ese día y semanas posteriores a nivel de titánico trabajo de todo el equipo es anecdótico con respecto al desgaste, la preocupación (no contractual) y frustración que sentimos 10 días después. Algunos de los backups de la única plataforma cuyo servicio no pudimos recuperar el mismo día del incendio, estaban por fin accesibles pero no eran los que contenían la base de datos.
Más allá de mejoras técnicas, a raíz de esta excepcional situación mi cabeza no ha parado de pensar en dos cuestiones principales, nada nuevas, pero sí traídas al frente con intensidad.
Como clientes, ¿cuánto sabemos sobre la seguridad y resiliencia de los servicios cloud (hosting, SAAS, etc.) que contratamos?
En todo proceso comercial de tecnología en el que hay servicio sale el tema del SLA (Service Level Agreement), en este sentido el contrato del cloud de OVH indica que:
- Por incumplimitento de su SLA de servicio, te indemnizarán como máximo el 50% de tu pago mensual en lo relativo a instancias cloud y del 100% de tu almacenamiento de objetos.
- Si incumple su SLA de resiliencia de datos, te indemnizarán con el 100% del coste mensual que conlleva el almacenamiento de los datos afectados.
Podemos pensar que esto pasa por ser OVH, un hoster económico y como dirían algunos «no es serio», pero si leemos el SLA del servicio EC2 del todopoderoso AWS, comprobamos que si el servicio ofrecido es menor al 99,9%, la compensación recibida será en créditos por valor de entre un 10 y un 100% del coste mensual de los recursos afectados.
Una empresa que haya perdido sus datos completamente -tras confiar en un servicio que los asegura al 100 %- estará igualmente destinada a la ruina por mucho que el proveedor le reintegre un saldo de unos pocos euros.
Este riesgo es extensible a servicios que salvaguardan datos críticos de nuestro negocio, como nuestra contabilidad o código fuente y que, lamentable y comprensiblemente, a veces tienen incidentes que en ocasiones conllevan la pérdida de nuestros datos y nuestro trabajo.
Por supuesto, si por esta razón una empresa quiebra, no será responsabilidad del proveedor ya que la empresa debería haber mejorado sus políticas de backups y resiliencia y tener siempre planes B y C.
Sin embargo, la realidad es que no todas las empresas tienen el conocimiento ni los recursos para saber que deben, por ejemplo, replicar backups en múltiples ubicaciones. Esto es especialmente grave en una realidad actual, en la que el sector tecnológico hemos convencido al resto de que todo está en la nube y que eso de por sí, es seguro.
En este sentido, yo confieso que no he hecho todos los deberes al contratar algunos SAAS, y si hace mes y medio me hubieran preguntado que si un incendio podría acabar con todo un centro de datos de OVH hubiera respondido «es altamente improbable».
Como empresarios que ofrecemos servicios críticos de los que dependen empresas completas y por tanto personas, ¿medimos los riesgos de nuestros fallos y su posible impacto real?
Esta pregunta cada vez parece más difícil de responder en un año en el que hemos vivido una pandemia, el incendio de OVH y hemos visto cómo Mapfre, Adeslas, el SEPE, Phone House, el INE e incluso la empresa de seguridad de Telefónica, Eleven Paths, han sido víctimas de importantes ciberataques.
Tras meditarlo, no veo que haya análisis y solución infalible y si existe, quizás no sea del todo viable para el negocio, sin embargo sí he sacado algo en claro: podemos criticar muchas cosas relativas al incendio, a la gestión del mismo, a la falta de previsión por tener backups en el mismo centro de datos o preguntarnos sobre el valor real de ciertos estándares o certificaciones visto el resultado, pero no podemos discutir la honestidad y posición en primera línea en todo momento de Octave, algo totalmente admirable.
Y ese es un buen pilar sobre el que plantear los servicios de nuestras empresas, asumiendo los errores, siendo honestos y trabajando duro para mejorar y minimizar riesgos y proteger a nuestros clientes en la medida de lo posible todo el tiempo que podamos mantener el Brillo en los Ojos.
La oferta que patrocina esta Bonilista
Para muchos de nuestros proyectos online, no nos hará falta montar una infraestructura propia de la NASA sino un servicio eficaz que nos permita dedicar nuestro tiempo a programar en vez de a administrar hierro.
Webempresa lleva desde 1999 alegrando el peculiar sector de la gestión de infraestructuras en España. Proporcionan un servicio de hosting elástico para los que estamos obsesionados con el rendimiento.
Una de sus principales apuestas es la seguridad, por eso regalan una VPN y un gestor de contraseñas a sus clientes. Si te apetece probarlos, me han prometido que si les escribes comentándoles que les has conocido en la Bonilista te darán un un código para que te ahorres un buen dinero. Puedes encontrar más detalles en su web.
Este texto se publicó originalmente en la Bonilista, la lista de correo de noticias tecnológicas relevantes para personas importantes. Si desea suscribirse y leerlo antes que nadie, puede hacerlo aquí ¡es bastante gratis!