SRE (Site Reliability Engineering)

SRE — подход к эксплуатации, который применяет инженерные методы для повышения надёжности. В центре — измеримые цели качества (SLO) и процессы, которые помогают удерживать сервис в заданных рамках.

SLI / SLO / SLA

Ошибочный бюджет

“Бюджет ошибок” показывает, сколько сбоев допустимо в периоде. Когда бюджет исчерпан, приоритет смещается на надёжность, а не на ускорение релизов.

Пример формулировки SLO

За последние 30 дней:
- 99.9% запросов /api должны завершаться успешно (2xx/3xx)
- 99% запросов должны иметь latency < 300ms (p99)