Calculadora de VRAM necesaria para un LLM

Ingresar cálculo

Fórmula

Resultados

VRAM estimada necesaria

16,8

Peso bruto del modelo	14 GB
Margen (caché KV, activaciones, etc.)	2,8 GB

¿Qué es la calculadora de VRAM para un LLM?

Esta herramienta estima cuánta memoria de vídeo de la GPU (VRAM) necesitas para cargar y ejecutar un modelo de lenguaje grande (LLM) durante la inferencia. La cantidad de memoria depende sobre todo del número de parámetros del modelo y de la precisión numérica con la que se almacena cada peso. Un factor de margen (o de seguridad) tiene en cuenta la caché KV, las activaciones y el contexto de CUDA, que consumen memoria más allá del peso bruto del modelo.

Cómo utilizarla

Introduce el tamaño del modelo en miles de millones de parámetros (por ejemplo, 7 para un modelo de 7B o 70 para Llama-3 70B). Elige la precisión: FP32 usa 4 bytes por peso, FP16/BF16 usa 2 bytes, INT8 usa 1 byte y la cuantización INT4 usa 0,5 bytes. Por último, ajusta el factor de margen: 1,2 (un colchón del 20 %) es un valor por defecto razonable para inferencia con contextos cortos; auméntalo si trabajas con contextos largos o por lotes (batching).

La fórmula explicada

$$\text{VRAM (GB)} = \text{Par\'ametros (miles de millones)} \times \text{Bytes por par\'ametro} \times \text{Margen}$$ Como 1000 millones de bytes ≈ 1 GB, multiplicar los parámetros en miles de millones por los bytes por parámetro da directamente el resultado en gigabytes. El factor de margen amplía después esa cifra para cubrir la memoria de ejecución.

Comparación de barras de los bytes por parámetro para las precisiones FP32, FP16, INT8 e INT4 — Los formatos de menor precisión usan menos bytes por parámetro, reduciendo la VRAM.

Diagrama que muestra el número de parámetros del modelo multiplicado por los bytes por parámetro y un factor de sobrecarga para obtener la VRAM total de la GPU — La VRAM equivale al número de parámetros por los bytes por parámetro por el factor de sobrecarga.

Ejemplo práctico

Para un modelo de 7B en FP16 con un factor de margen de 1,2: $$7 \times 2 \times 1{,}2 = 16{,}8 \text{ GB}$$ Cabe sin problemas en una tarjeta de 24 GB. El mismo modelo en INT4: $$7 \times 0{,}5 \times 1{,}2 = 4{,}2 \text{ GB}$$ y se ejecuta fácilmente en una GPU de 8 GB.

Preguntas frecuentes

¿Por qué el uso real es mayor que el peso bruto del modelo? La caché KV crece con la longitud del contexto y el tamaño del lote, y el framework reserva memoria para las activaciones y los búferes: eso es lo que aproxima el factor de margen.

¿Incluye el entrenamiento? No. El entrenamiento necesita aproximadamente entre 3 y 4 veces más memoria para los estados del optimizador y los gradientes; esta estimación está pensada para la inferencia.

¿Qué margen debería usar? Usa alrededor de 1,2 para prompts cortos y entre 1,5 y 2,0 o más para contextos largos o un batching intensivo.

Última actualización: 19 de junio de 2026

Calculadoras relacionadas

Calculadora de tokens a palabras para LLM

Convierte tokens de LLM en palabras al instante (y viceversa). Calcula cuántas palabras equivalen a un número de tokens con la regla de ~0,75 palabras por token.
Calculadora de velocidad de internet necesaria

Descubre cuántos Mbps necesita tu internet en casa. Suma streaming, videojuegos, videollamadas y navegación en todos los dispositivos con un margen de seguridad.
Calculadora de Costes de API de LLM

Calcula el coste de una API de LLM a partir de los tokens de entrada/salida y el precio por cada 1.000 tokens. Estima el coste por petición y el gasto total.
Calculadora de costes de tokens de IA/LLM

Estima el coste de tus llamadas a APIs de LLM según los tokens de entrada y salida y el precio por cada 1.000 tokens. Calcula el coste por llamada y el gasto total.
Calculadora de Tokens a Palabras y Coste de LLM

Convierte tokens de LLM en palabras estimadas y calcula el coste de la API según el precio por cada 1.000 tokens. Estimación rápida para GPT, Claude y más.
Calculadora de VRAM necesaria para LLM

Calcula la VRAM de GPU que necesitas para ejecutar un modelo de lenguaje grande. Introduce los parámetros en miles de millones y elige FP16, 8 o 4 bits.

Descubrir

Calculadora de vatios para la fuente de alimentación (PSU) de tu PC

Calcula los vatios de PSU que necesita tu PC. Suma CPU, GPU, RAM, almacenamiento y ventiladores y obtén la potencia recomendada con un 20 % de margen.
Calculadora de porcentaje de uptime del SLA

Calcula el uptime y el porcentaje de disponibilidad de tu SLA a partir del tiempo de inactividad. Convierte minutos de caída en cifras de disponibilidad tipo 99,9 %.
Calculadora de costes de VM en la nube / instancias EC2

Calcula el coste mensual, diario y anual de tus máquinas virtuales en la nube o instancias EC2 de AWS según el número, la tarifa por hora y las horas de uso.
Conversor de Mbps a Gbps

Convierte Mbps a Gbps al instante. Introduce tu velocidad de internet en megabits por segundo y obtén su equivalente en gigabits por segundo (Gbps = Mbps / 1000).
Calculadora del Coste de Consumo Eléctrico de Servidores

Calcula el coste eléctrico mensual y anual de tener servidores funcionando 24/7. Introduce vatios, precio por kWh y número de servidores para estimar el gasto.