Zadanie: Reakcja na incydenty

2013-11-03 23:10:47 2013-11-04 19:37:23
Reakcja na incydenty

W przypadku systemów produkcyjnych staramy się utrzymać ich dostępność w jak największym procencie czasu. Stosunek czasu niedostępności usługi do całkowitego czasu pomiaru nazywamy "uptime".

W ramach tego zadania obsługiwałem incydenty zarówno w ramach godzin pracy, jak i poza. Reakcja na incydenty obejmowała :

  • Diagnostykę aktualnej sytuacji (w oparciu o monitoringi, jak i analizy manualne)
  • Dokumentacja awarii w celu zapobiegania incydentom w przyszłości
  • Wdrożenie poprawek w celu ominięcia lub usunięcia sytuacji awaryjnej
  • Komunikacja z zespołem w celu wyjaśnienia i rozwiązania problemu w przyszłości