TGINSIGHT POST
Post #2301
@leadgr
Teamlead Good Reads – ежедневные советы про менеджмент людей и команд
Содержимое
Как эффективно работать с инцидентами Как показывают последние месяцы, количество серьезных инцидентов начало резко расти. Вы и раньше от них не были застрахованы, а теперь, когда постоянно ложатся базовые сервисы вроде Cloudflare, AWS и GitHub, вы стали еще уязвимее. Поэтому держите статью про то, как прокачивать себя и команду, чтобы справляться с инцидентами эффективнее: 👉Все должны понимать в деталях, из каких шагов состоит деплой. 👉Не нужно быть экспертом во всех компонентах вашей системы, но надо иметь общее представление об ее архитектуре, железе и его конфигурации, сетевом стеке, пути запроса и всей инфраструктуре. 👉Нужен хороший тулинг, который позволяет легко вытащить стектрейсы эксепшнов, посмотреть на метрики железа и приложения. 👉Нужно развивать насмотренность на стектрейсы – понимать, какие части касаются вашего кода, а какие библиотечного, учиться быстро находить их источник. 👉Постройте практику war room – во время инцидента собирать всех релевантных людей из разных функций в одном физическом или виртуальном пространстве, чтобы быстро обмениваться информацией. 👉Введите роль инцидент лида – у этого человека должны быть полномочия перенаправлять других людей на разные части расследования, принимать решения по отключению фичей, поддерживать всех в курсе происходящего.