Conectar vía MCP →

Ingresar cálculo

Fórmula

Publicidad

Resultados

VRAM estimada necesaria
16,8
GB de memoria de GPU
Tamaño bruto de los pesos 14 GB
Bytes por parámetro 2
Factor de sobrecarga 1,2×

Para qué sirve esta calculadora

La Calculadora de VRAM para LLM estima cuánta memoria de GPU necesitas para cargar y ejecutar un modelo de lenguaje grande. Multiplica el número de parámetros del modelo (en miles de millones) por los bytes que ocupa cada parámetro según la precisión elegida y, después, aplica un factor de sobrecarga que tiene en cuenta las activaciones, la caché KV y los búferes del framework.

Cómo usarla

Indica el tamaño del modelo en miles de millones de parámetros (por ejemplo, 7 para un modelo de 7B o 70 para uno de 70B). Elige la cuantización: FP16/BF16 usa 2 bytes por peso, INT8 usa 1 byte, 4 bits usa 0,5 bytes y 2 bits usa 0,25 bytes. El factor de sobrecarga predeterminado de 1,2 (un margen del 20 %) es un buen punto de partida para la inferencia; auméntalo si trabajas con contextos largos o procesamiento por lotes.

La fórmula al detalle

$$\text{VRAM (GB)} = \text{Par\acute{a}metros (miles de millones)} \times \text{bytes por par\acute{a}metro} \times \text{sobrecarga}$$ Los dos primeros términos dan el tamaño bruto de los pesos del modelo en gigabytes. El multiplicador de sobrecarga reserva la memoria adicional que consumen en tiempo de ejecución PyTorch, CUDA y la caché KV de atención, algo que el tamaño bruto de los pesos por sí solo no contempla.

Tres barras que comparan la VRAM para cuantización FP16, 8 bits y 4 bits
La menor precisión (8 bits, 4 bits) reduce a casi la mitad los bytes por parámetro y la VRAM necesaria.
Diagrama de barras apiladas que muestra la VRAM dividida en pesos, caché KV y sobrecarga
La VRAM total está dominada por los pesos del modelo, más un extra para la caché KV y la sobrecarga.

Ejemplo práctico

Un modelo de 7B con precisión de 4 bits: \(7 \times 0{,}5 = 3{,}5\) GB de pesos. Con un factor de sobrecarga de 1,2: \(3{,}5 \times 1{,}2 = 4{,}2\) GB. Cabe holgadamente en una GPU de consumo de 8 GB. El mismo modelo en FP16 necesita \(7 \times 2 \times 1{,}2 = 16{,}8\) GB, lo que exige una tarjeta de 24 GB.

Preguntas frecuentes

¿Es un cálculo exacto? No: es una estimación para inferencia. El consumo real varía según la longitud del contexto, el tamaño del lote y el framework de servicio. Úsala para planificar, no para afinar hasta el último megabyte.

¿Incluye la memoria de entrenamiento? No. Entrenar requiere muchísimo más (estados del optimizador, gradientes), a menudo 4 veces o más la cifra de inferencia.

¿Qué sobrecarga debo usar? 1,2 es adecuado para inferencia con contexto corto; usa entre 1,3 y 1,5 para contextos largos o solicitudes simultáneas.

Última actualización: