Blog

La estabilidad de los sistemas tecnológicos al enfrentar problemas imprevistos.

El día 4 de septiembre del 2018, la plataforma de Azure, más en específico, su centro de datos ubicado en la ciudad de San Antonio Texas en Estados Unidos (South Central US), tuvo un problema de energía, esto causo que miles de clientes que no estaban preparados para una eventualidad de este tipo vieran afectados sus servicios. Por esto, es importante estar preparados para enfrentar de forma correcta cualquier problema que se pueda presentar.

Ningún servicio es 100% a prueba de fallos, lo único que se puede hacer es jugar con las probabilidades, mitigar problemas en el servicio con una infraestructura sólida y bien planificada, así como instaurar protocolos de acción para lograr levantar en un momento dado un servicio de respaldo que pueda soportar las tareas de producción hasta que los servicios principales se estabilicen.

A través de los años, se han dado casos en donde los servicios caen y tardan desde pocos minutos hasta horas para levantarse, aunque en muchos de los casos los daños económicos son muy grandes. Tan solo el 21 de octubre del 2016 se dio uno de los problemas más fuertes a los que ha enfrentado el internet, un ataque de denegación de servicio (DDOS) fue dirigido a la empresa DYN DNS con lo que millones de personas y miles de empresas en todo el mundo tuvieron problemas de conexión hasta que el ataque, que duró varias horas, fue contenido paulatinamente.

Puedes revisar la declaración oficial de DYN DNS en su página web (en inglés). https://dyn.com/blog/dyn-statement-on-10212016-ddos-attack/

Si quisieran saber con mas detalle, lo ocurrido y los procedimientos que llevo acabo DYN para mitigar el ataque pueden revisar el documento en su página web (en inglés). https://dyn.com/blog/dyn-analysis-summary-of-friday-october-21-attack/

Aunque la mayor parte de los problemas son por ataques directos, también llegan los problemas por causas meteorológicas, descuidos humanos, por falta de mantenimiento y hasta por no invertir lo necesario para mantener los servicios funcionando. Sea por lo que sea, el final es el mismo, la caída del servicio. Estos inconvenientes no respetan ni el tamaño de la empresa, ni la cantidad de sus empleados o cuantos usuarios la utilizan. Todos hemos tenido alguna intermitencia en el servicio de servicios como Facebook, Twitter, Instagram o WhatsApp.

Con respecto a servicios en la nube, ni Google ni Amazon se salvan, que son la competencia directa con Azure de Microsoft. Google ha venido teniendo algunos problemas a lo largo de su historia, uno de los mas fuertes se dio el día 9 de mayo del 2018 a nivel mundial, ya que existieron problemas a lo largo de sus servicios como lo son “Google Cloud Platform”, “Gmail” y “YouTube” entre otros más, pero se logró contener el problema y se resolvió unas horas después.

Uno de los problemas mas severos que ha tenido Google con su servicio “Google Cloud Platform” sucedió el día 13 de agosto del 2015, se lograron estabilizar los servicios hasta 3 días después. Para saber más detalles del evento consulta el siguiente enlace (en inglés) https://status.cloud.google.com/incident/compute/15056

Con respecto a Amazon y su servicio “Amazon Web Services (AWS)” que también hacen un esfuerzo enorme por mantener los servicios estables, a veces no se logra el cometido, como se describe a manera de resumen lo ocurrido aquel 28 de febrero del 2017 en el siguiente enlace (en inglés). https://aws.amazon.com/es/message/41926/

Los servicios que nos ofrecen estos monstruos tecnológicos son muy fiables y con costos competitivos, pero aun así, quienes utilizamos estos servicios debemos estar preparados para saber cómo aprovecharlos al máximo y realizar implementaciones realmente eficaces con un mínimo porcentaje de posibilidades de error.

Si tienes mas dudas, quieres saber mas del tema o quieres deseas saber cómo proteger a tu empresa o negocio de este tipo de problemas, puede contactarnos. Ten por seguro que encontraremos una solución.

A pesar de todos los problemas y perdidas que conlleva la falla de un servicio tecnológico, no puede hacer falta el humor con el que algunas personas hacen de un problema una situación cómica