Мониторинг не настраивают «потом»

«Добавим мониторинг потом» — фраза которую я слышал на каждом втором проекте. Потом не наступает никогда. Либо до первого инцидента, либо вообще.

Я понял это неприятным способом. Сервис лежал четыре часа в воскресенье, мы узнали об этом от пользователей. Не от алертов, не от дашборда — от пользователей в поддержке.

После этого у меня правило: нет мониторинга — нет деплоя. Звучит жёстко, на практике это 20–30 минут работы для простого проекта.

Минимум который я считаю обязательным для любого сервиса:

— Проверка что процесс живой (uptime monitor, хоть UptimeRobot бесплатный) — Алерт если диск заполнен больше 80% — Алерт если память заканчивается — Логи которые можно посмотреть когда что-то пошло не так

Это не Prometheus + Grafana с 50 дашбордами. Это минимум без которого вы летите вслепую.

Сложные системы мониторинга нужны сложным системам. Для небольшого проекта хватит простых проверок и нормально настроеного алертинга. Главное чтобы вы узнавали о проблеме раньше пользователей.

Минимум который я считаю обязательным для любого сервиса:

Это не Prometheus + Grafana с 50 дашбордами. Это минимум без которого вы летите вслепую.

Мониторинг не настраивают «потом»

Обсуждение

Мониторинг не настраивают «потом»

Обсуждение