Содержимое
Принципы здорового алертинга и on-call процесса Почти во всех компаниях процесс on-call дежурств – боль, страдание и частая причина увольнений. В презентации СТО Honeycomb предлагает следующие шаги по исправлению ситуации: 🌡Выключить алерты на симптомы, заменить их алертами на SLO, которые привязаны непосредственно к болям пользователей. 🤔Удалить все флакующие алерты, потому что моральное состояние людей важнее. 🚨Почти все алерты должны падать во второстепенную очередь, на которую не требуется мгновенная реакция дежурного. Вместо этого, очередь можно разбирать с началом рабочего дня. 📝Каждый алерт должен идти со ссылкой на подробную документацию о том, что его может вызвать. 👀Инвестируйте в observability своего кода и сервисов, профилируйте максимально часто и ловите баги до того, как они отстрелят у пользователей 📈Используйте SLO для того, чтобы приоритизировать работы по техническим улучшениям #техлидство