¿Qué es un error budget?
En la ingeniería de fiabilidad de sitios (SRE, por sus siglas en inglés), el error budget o presupuesto de errores es la cantidad de fallos que un servicio puede permitirse sin dejar de cumplir su objetivo de nivel de servicio (SLO). Si prometes una disponibilidad del 99,9 %, estás aceptando de forma implícita un 0,1 % de tiempo de caída: ese 0,1 % es tu error budget. Esta calculadora universal convierte cualquier objetivo de SLO y periodo de tiempo en el máximo tiempo de inactividad tolerable, expresado en minutos, y luego resta la caída que ya has consumido para mostrarte cuánto presupuesto te queda.
Cómo usarla
Introduce tu SLO objetivo como porcentaje (por ejemplo, 99,9), elige el periodo del presupuesto (semana, mes, trimestre o año) e indica cuántos minutos de caída se han producido ya durante ese periodo. La calculadora te devuelve el error budget total, el tiempo de inactividad consumido y el presupuesto restante, tanto en minutos como en porcentaje.
La fórmula explicada
Primero se convierte el periodo a minutos: \(\text{minutos\_periodo} = \text{días} \times 24 \times 60\). El error budget es \((1 - \text{SLO}) \times \text{minutos\_periodo}\), donde el SLO se expresa como fracción (99,9 % → 0,999). Por último, \(\text{presupuesto\_restante} = \text{error\_budget} - \text{caída\_consumida}\). Un valor restante negativo significa que ya has agotado tu presupuesto y has incumplido el SLO.
$$B_{\text{rem}} = \left(1 - \frac{\text{SLO (\%)}}{100}\right) \cdot P - \text{Downtime (min)}$$ $$\text{donde}\quad P = \text{Periodo (días)} \times 24 \times 60$$
Ejemplo práctico
Supongamos que tu SLO es del 99,9 % a lo largo de un mes de 30 días. El periodo equivale a \(30 \times 24 \times 60 = 43{.}200\) minutos. El error budget es \((1 - 0{,}999) \times 43{.}200 = 43{,}2\) minutos. Si ya has tenido 10 minutos de caída, tu presupuesto restante es \(43{,}2 - 10 = 33{,}2\) minutos, es decir, aproximadamente el 76,85 % del presupuesto.
Preguntas frecuentes
¿Cuál es un buen SLO? Depende del servicio. El 99,9 % («tres nueves») es habitual en aplicaciones web; las infraestructuras críticas pueden aspirar al 99,99 % o más. Cuanto más alto es el SLO, menor es el error budget disponible.
¿Qué significa un presupuesto restante negativo? Que has superado el tiempo de caída permitido y has violado el SLO. Los equipos de SRE suelen congelar los despliegues arriesgados hasta que el presupuesto se recupera.
¿Incluye el mantenimiento planificado? Solo si cuentas las ventanas de mantenimiento como tiempo de caída. Muchos equipos excluyen el mantenimiento anunciado del cálculo del SLO.