Qu'est-ce qu'un budget d'erreur ?
En Site Reliability Engineering (SRE), le budget d'erreur représente la part d'indisponibilité qu'un service peut se permettre tout en respectant son objectif de niveau de service (SLO, pour Service Level Objective). Si vous garantissez une disponibilité de 99,9 %, vous tolérez implicitement 0,1 % d'indisponibilité : ces 0,1 % constituent votre budget d'erreur. Ce calculateur universel convertit n'importe quel objectif SLO et n'importe quelle période en une durée maximale d'indisponibilité tolérée (en minutes), puis soustrait l'indisponibilité déjà consommée pour afficher le budget qu'il vous reste.
Comment l'utiliser
Saisissez votre objectif SLO en pourcentage (par exemple 99,9), choisissez la période de référence (semaine, mois, trimestre ou année), puis indiquez le nombre de minutes d'indisponibilité déjà survenues sur cette période. Le calculateur vous renvoie votre budget d'erreur total, l'indisponibilité consommée et le budget restant, à la fois en minutes et en pourcentage.
La formule expliquée
La période est d'abord convertie en minutes : \(\text{minutes\_période} = \text{jours} \times 24 \times 60\). Le budget d'erreur vaut $$B_{\text{rem}} = \left(1 - \frac{\text{SLO (\%)}}{100}\right) \cdot P - \text{Downtime (min)}$$ où le SLO est exprimé sous forme de fraction (99,9 % → 0,999). Enfin, \(\text{budget\_restant} = \text{budget\_erreur} - \text{indisponibilité\_consommée}\). Une valeur restante négative signifie que vous avez déjà épuisé votre budget et dépassé votre SLO.
Exemple concret
Supposons un SLO de 99,9 % sur un mois de 30 jours. La période représente \(30 \times 24 \times 60 = 43\,200\) minutes. Le budget d'erreur est donc de $$(1 - 0{,}999) \times 43\,200 = 43{,}2 \text{ minutes}$$ Si vous avez déjà subi 10 minutes d'indisponibilité, votre budget restant est de \(43{,}2 - 10 = 33{,}2\) minutes, soit environ 76,85 % du budget.
FAQ
Quel est un bon SLO ? Cela dépend du service. 99,9 % (les « trois neuf ») est courant pour les applications web ; les infrastructures critiques visent parfois 99,99 % voire davantage. Plus le SLO est élevé, plus le budget d'erreur est réduit.
Que signifie un solde négatif ? Vous avez dépassé l'indisponibilité autorisée et enfreint votre SLO. Les équipes SRE gèlent souvent les déploiements risqués jusqu'à ce que le budget se reconstitue.
La maintenance planifiée est-elle prise en compte ? Uniquement si vous comptabilisez les fenêtres de maintenance comme de l'indisponibilité. De nombreuses équipes excluent les maintenances annoncées du calcul du SLO.