«Добавим мониторинг потом» — фраза которую я слышал на каждом втором проекте. Потом не наступает никогда. Либо до первого инцидента, либо вообще.
Я понял это неприятным способом. Сервис лежал четыре часа в воскресенье, мы узнали об этом от пользователей. Не от алертов, не от дашборда — от пользователей в поддержке.
После этого у меня правило: нет мониторинга — нет деплоя. Звучит жёстко, на практике это 20–30 минут работы для простого проекта.
Минимум который я считаю обязательным для любого сервиса:
— Проверка что процесс живой (uptime monitor, хоть UptimeRobot бесплатный) — Алерт если диск заполнен больше 80% — Алерт если память заканчивается — Логи которые можно посмотреть когда что-то пошло не так
Это не Prometheus + Grafana с 50 дашбордами. Это минимум без которого вы летите вслепую.
Сложные системы мониторинга нужны сложным системам. Для небольшого проекта хватит простых проверок и нормально настроеного алертинга. Главное чтобы вы узнавали о проблеме раньше пользователей.