Hata Bütçesi Nedir?
Site Güvenilirlik Mühendisliği'nde (SRE), hata bütçesi bir servisin Hizmet Seviyesi Hedefini (SLO) hâlâ karşılarken sahip olmasına izin verilen güvenilmezlik miktarıdır. %99,9 erişilebilirlik vaat ediyorsanız, dolaylı olarak %0,1 kesintiye de izin vermiş olursunuz; işte bu %0,1 sizin hata bütçenizdir. Bu evrensel hesaplayıcı, herhangi bir SLO hedefini ve zaman dilimini dakika cinsinden tolere edilebilir maksimum kesinti süresine dönüştürür; ardından önceden tükettiğiniz kesinti süresini düşerek geriye ne kadar bütçe kaldığını gösterir.
Nasıl Kullanılır?
SLO hedefinizi yüzde olarak girin (örneğin 99,9), bütçeleme dönemini seçin (hafta, ay, çeyrek ya da yıl) ve o dönem içinde şimdiye kadar kaç dakika kesinti yaşandığını yazın. Hesaplayıcı; toplam hata bütçenizi, tüketilen kesinti süresini ve kalan bütçeyi hem dakika hem de yüzde cinsinden verir.
Formül Açıklaması
Önce dönem dakikaya çevrilir: \(\text{dönem\_dakika} = \text{gün} \times 24 \times 60\). Hata bütçesi \((1 - \text{SLO}) \times \text{dönem\_dakika}\) şeklinde hesaplanır; burada SLO ondalık olarak ifade edilir (%99,9 → 0,999). Son olarak \(\text{kalan\_bütçe} = \text{hata\_bütçesi} - \text{tüketilen\_kesinti}\) bulunur. Kalan değerin negatif olması, bütçenizi çoktan tükettiğiniz ve SLO'yu ihlal ettiğiniz anlamına gelir.
$$B_{\text{rem}} = \left(1 - \frac{\text{SLO (\%)}}{100}\right) \cdot P - \text{Downtime (min)}$$ $$\text{where}\quad \left\{ \begin{aligned} P &= \text{Period (days)} \times 24 \times 60 \end{aligned} \right.$$
Örnek Hesaplama
Diyelim ki SLO'nuz 30 günlük bir ay boyunca %99,9. Dönem \(30 \times 24 \times 60 = 43{.}200\) dakikadır. Hata bütçesi \((1 - 0{,}999) \times 43{.}200 = 43{,}2\) dakika olur. Şimdiye kadar 10 dakika kesinti yaşadıysanız, kalan bütçeniz \(43{,}2 - 10 = 33{,}2\) dakika, yani bütçenin yaklaşık %76,85'idir.
Sık Sorulan Sorular
İyi bir SLO nedir? Bu, servise bağlıdır. %99,9 ("üç dokuz") web uygulamaları için yaygındır; kritik altyapılar %99,99 veya daha yüksek hedefler koyabilir. Daha yüksek SLO'lar, daha küçük bir hata bütçesi bırakır.
Negatif kalan ne anlama gelir? İzin verilen kesinti sürenizi aştığınız ve SLO'yu ihlal ettiğiniz anlamına gelir. SRE ekipleri, bütçe toparlanana kadar riskli dağıtımları (deployment) sık sık dondurur.
Planlı bakım buna dahil mi? Yalnızca bakım pencerelerini kesinti olarak saymayı seçerseniz dahildir. Birçok ekip, önceden duyurulan bakımları SLO hesabının dışında tutar.