lunes, marzo 27, 2017

Un error al ingresar un comando dejó la nube de Amazon offline

El 28 de Febrero ha ocurrido algo llamativo, gran cantidad de sitios webs que utilizaban la nube de Amazon han experimentado una caída.

Generalmente los servicios de tecnología se manejan con un SLA (Acuerdo de nivel de Servicio) donde uno de los indicadores más utilizados es el Uptime, es decir que porcentaje del tiempo estuvo el servicio activo.

Esta caída ha sido por un error al ingresar un comando, tal lo describe la web del servicio de Amazon.

Si bien el problema parece sencillo la pregunta es cómo uno podría evitar este tipo de errores.
Acá una serie de ideas:
  1. Capacitar al personal.
  2. Entrenar al personal.
  3. Verificar que el personal se encuentre en buen estado (sin sueño, sin stress, concentrado, etc).
  4. Los comandos críticos pedir que sean autorizados por otra persona (al momento que el comando es ingresado).
  5. Que las acciones críticas las tenga que autorizar un superior (al momento que se vaya a ejecutar el comando).
Si bien estas soluciones parecen simples "en producción" puede ser una tarea compleja, más que nada por los pocos tiempos que se cuentan.

El futuro de la administración de sistemas tal vez nos traiga algunas soluciones ante este tipo de situaciones.. pero lo importante: siempre aprender de los errores.

No hay comentarios:

Publicar un comentario

Compartí tu comentario, es una forma de agradecer para que se sigan publicando más entradas. Se admiten mensajes anónimos.

Recibe las actualizaciones en tu correo