SLA (Service Level Agreement) — это документ, фиксирующий обязательства провайдера перед клиентом. В отличие от общего договора на оказание услуг, SLA содержит конкретные технические метрики: доступность (uptime), время реакции техподдержки и сроки восстановления системы после сбоев.
Работа соглашения строится на связке SLI (индикаторы) и SLO (цели). Провайдер мониторит показатели системы в реальном времени. Если фактические значения SLI не соответствуют целевым SLO, это считается нарушением контракта, что влечет за собой выплату компенсаций или предоставление скидок на обслуживание.
Как это работает
- Uptime: процент времени, когда сервис доступен.
- MTTR (Mean Time To Repair): среднее время восстановления после инцидента.
- Error Budget: лимит допустимых сбоев, при исчерпании которого приоритет отдается стабильности, а не внедрению новых фич.
В индустрии принят стандарт «девяток». Например, доступность 99.9% (три девятки) допускает простой до 8 часов 45 минут в год. Уровень 99.99% (четыре девятки) сокращает это время до 52 минут в год. Чем выше требования к SLA, тем сложнее и дороже архитектура решения.