SRE (Site Reliability Engineering)
SRE — подход к эксплуатации, который применяет инженерные методы для повышения надёжности. В центре — измеримые цели качества (SLO) и процессы, которые помогают удерживать сервис в заданных рамках.
SLI / SLO / SLA
- SLI — показатель (например, доля успешных запросов).
- SLO — целевое значение (например, 99.9% успешных запросов за 30 дней).
- SLA — внешнее обязательство перед клиентом.
Ошибочный бюджет
“Бюджет ошибок” показывает, сколько сбоев допустимо в периоде. Когда бюджет исчерпан, приоритет смещается на надёжность, а не на ускорение релизов.
Пример формулировки SLO
За последние 30 дней: - 99.9% запросов /api должны завершаться успешно (2xx/3xx) - 99% запросов должны иметь latency < 300ms (p99)