El hecho de que viajemos por el espacio, tengamos robots que nos asistan, teléfonos que puedan conectarnos en formato video con la otra punta del mundo o servicios informativos a nivel global con los cuales sabemos que pasa en cualquier lado en todo momento, no nos exime de la responsabilidad de cuidar cómo escribimos. Un error de escritura y podemos, por ejemplo, echar por tierra la mitad de la internet mundial.
Eso fue lo que pasó ayer con los Servidores Web de Amazon denominados "Simple Storage Services" o en resumen, S3 que le otorgan servicio de "nube" a una infinidad de aplicaciones web y mobile y a su vez alojamiento a páginas de uso bastante corriente.
Entre los servicios afectados se encontraban páginas y apps como Giphy, Airbnb, Amazon Prime Video, Expedia, Slack, Medium, y como cereza de la torta, la Comisión de Seguridad e Intercambio de los Estados Unidos.
El error, explicado por Amazon, fue causado por un simple error de tipeo de uno de sus ingenieros. Encargado de reiniciar una serie escueta de servidores encargados del sistema de cobros de Amazon que necesitaban mantenimiento, este ingeniero (del cual no se dió el nombre a conocer, pero que seguramente ya debe estar buscando trabajo en otro rubro) ingresó mal la cantidad de servidores a reiniciar, apagando los servidores S3 de Amazon, los cuales nunca antes habían sido reiniciados... y ahora sabemos porqué.
La caída en cadena que generó este apagón erróneo no hizo más que sobrecargar otros servidores, que se fueron reiniciando a la par y así, para las 10 AM (hora del pácifico) casi la totalidad de la red de la costa Este de los Estados Unidos estaba derrumbada. Claro está que esto afectó no solo a los EEUU, sino que el problema abarcó a gran parte del mundo dado que muchos se los servicios caídos son de uso global.
Amazon no tardó en reaccionar, ofreciendo reportes constantes del estado de las reparaciones a medida que se iban recuperando los servicios, y también anunció un importante cambio en sus protocolos de trabajo. De ahora en adelante, ningún ingeniero tendrá completo acceso a toda la red de servidores, habiendo dividido las áreas de trabajo en diferentes sectores con diferentes núcleos, y evitar así estos "efectos dominó" indeseados al apagar un servidor indebido.
Evidenemente, los errores más tontos pasan hasta en las grandes empresas...
Así que si vuestra internet se encontró lenta en estos días, o si algún servicio otorgaba la ya clásica y molesta pantalla de error "404", ya saben porque fue. A la hora de terminar esta redacción, los servicios ya estaban 100% restablecidos... pero recuerden: un "typo" puede causar estragos.