Zadanie: Reakcja na incydenty
W przypadku systemów produkcyjnych staramy się utrzymać ich dostępność w jak największym procencie czasu. Stosunek czasu niedostępności usługi do całkowitego czasu pomiaru nazywamy "uptime".
W ramach tego zadania obsługiwałem incydenty zarówno w ramach godzin pracy, jak i poza. Reakcja na incydenty obejmowała :
- Diagnostykę aktualnej sytuacji (w oparciu o monitoringi, jak i analizy manualne)
- Dokumentacja awarii w celu zapobiegania incydentom w przyszłości
- Wdrożenie poprawek w celu ominięcia lub usunięcia sytuacji awaryjnej
- Komunikacja z zespołem w celu wyjaśnienia i rozwiązania problemu w przyszłości