Содержимое
🔎 Когда падает дата-центр: кейс Яндекса и что с этим делать 30 марта в одном из дата-центров Яндекса произошло полное отключение электропитания. Инцидент затронул Яндекс Облако и вызвал сбои в работе ряда сервисов и клиентов. Что важно понимать: у Яндекс Облака три зоны доступности. Пользователи сами выбирают, в какой зоне размещать свои ресурсы: виртуальные машины, базы данных, кластеры и так далее. Обычно это позволяет распределить нагрузку и повысить отказоустойчивость, но бывают случаи, когда срабатывают крайне редкие сценарии, что и произошло в этот раз. Что можно было сделать заранее? Чтобы снизить риски в таких ситуациях, облачные провайдеры предлагают ряд инструментов. Основные подходы: - Распределение нагрузки. Размещайте сервисы в разных зонах. - Балансировщики. Они могут быть сетевыми (уровень 4 OSI) или прикладными (уровень 7) - Контейнеризация и оркестрация. Kubernetes (особенно в managed-варианте) даёт мощные инструменты для отказоустойчивости - Резервное копирование. В случае физических повреждений (пожары, затопления) это критически важно. Надежность в облаке — не по умолчанию. Она строится за счёт архитектуры, автоматизации и здравого смысла. 🔗Подробнее @devopsitsec