Calculateur de VRAM nécessaire pour un LLM

Entrez le calcul

Formule

Résultats

VRAM estimée nécessaire

16,8

Poids bruts du modèle	14 GB
Surcharge (cache KV, activations, etc.)	2,8 GB

Qu'est-ce que le calculateur de VRAM pour LLM ?

Cet outil estime la quantité de mémoire vidéo GPU (VRAM) nécessaire pour charger et faire tourner un grand modèle de langage (LLM) en inférence. Cette mémoire dépend avant tout du nombre de paramètres du modèle et de la précision numérique utilisée pour stocker chaque poids. Un facteur de surcharge (marge de sécurité) prend en compte le cache KV, les activations et le contexte CUDA, qui consomment de la mémoire en plus des poids bruts.

Comment l'utiliser

Indiquez la taille du modèle en milliards de paramètres (par exemple 7 pour un modèle 7B, ou 70 pour Llama-3 70B). Choisissez la précision : le FP32 utilise 4 octets par poids, le FP16/BF16 en utilise 2, l'INT8 en utilise 1 et la quantification INT4 n'en utilise que 0,5. Réglez enfin le facteur de surcharge : 1,2 (soit une marge de 20 %) constitue une valeur par défaut raisonnable pour de l'inférence en contexte court ; augmentez-le pour les contextes longs ou le traitement par lots (batching).

La formule expliquée

$$\text{VRAM (Go)} = \text{Paramètres (milliards)} \times \text{Octets par paramètre} \times \text{Surcharge}$$ Comme 1 milliard d'octets ≈ 1 Go, multiplier le nombre de paramètres exprimé en milliards par le nombre d'octets par paramètre donne directement un résultat en gigaoctets. Le facteur de surcharge vient ensuite majorer ce total pour couvrir la mémoire utilisée à l'exécution.

Comparaison en barres des octets par paramètre pour les précisions FP32, FP16, INT8 et INT4 — Les formats de moindre précision utilisent moins d'octets par paramètre, réduisant la VRAM.

Schéma montrant le nombre de paramètres du modèle multiplié par les octets par paramètre et un facteur de surcharge pour obtenir la VRAM totale du GPU — VRAM = nombre de paramètres × octets par paramètre × facteur de surcharge.

Exemple concret

Pour un modèle 7B en FP16 avec un facteur de surcharge de 1,2 : $$7 \times 2 \times 1{,}2 = 16{,}8 \text{ Go}$$ Cela tient confortablement sur une carte de 24 Go. Le même modèle en INT4 : $$7 \times 0{,}5 \times 1{,}2 = 4{,}2 \text{ Go}$$ qui tourne sans problème sur un GPU de 8 Go.

FAQ

Pourquoi l'utilisation réelle dépasse-t-elle la taille des poids bruts ? Le cache KV grandit avec la longueur du contexte et la taille du lot, et le framework réserve de la mémoire pour les activations et les tampons : c'est précisément ce que le facteur de surcharge cherche à approximer.

Cela inclut-il l'entraînement ? Non. L'entraînement nécessite environ 3 à 4 fois plus de mémoire pour les états de l'optimiseur et les gradients ; cette estimation concerne uniquement l'inférence.

Quel facteur de surcharge utiliser ? Comptez environ 1,2 pour des prompts courts, et 1,5 à 2,0 (voire plus) pour les contextes longs ou un batching important.

Dernière mise à jour: 19 juin 2026

Calculatrices associées

Convertisseur tokens-mots pour LLM

Convertissez instantanément les tokens des LLM en mots (et inversement). Estimez le nombre de mots d'un volume de tokens grâce à la règle des ~0,75 mot par token.
Calculateur de débit Internet nécessaire

Découvrez le débit en Mbps dont votre connexion a besoin. Additionnez streaming, jeu, visioconférences et navigation sur tous vos appareils, avec une marge de sécurité.
Calculateur de coût d'API LLM

Estimez le coût d'une API LLM à partir des tokens d'entrée/sortie et des tarifs par 1 000 tokens. Calculez le coût par requête et la dépense totale.
Calculateur de coût des tokens IA/LLM

Estimez le coût des appels d'API LLM à partir des tokens d'entrée/sortie et des prix par 1 000 tokens. Calculez le coût par appel et la dépense totale.
Calculateur de tokens LLM en mots et coût d'API

Convertissez les tokens LLM en nombre de mots estimé et calculez le coût d'API selon le prix pour 1 000 tokens. Estimation rapide pour GPT, Claude et autres modèles.
Calculateur de VRAM requise pour un LLM

Estimez la VRAM GPU nécessaire pour faire tourner un grand modèle de langage. Saisissez les paramètres en milliards et choisissez la quantification FP16, 8 bits ou 4 bits.

Découvrir

Calculateur de puissance d'alimentation PC (PSU)

Estimez la puissance d'alimentation idéale pour votre PC. Ajoutez CPU, GPU, RAM, stockage et ventilateurs pour obtenir un wattage recommandé avec 20 % de marge.
Calculateur de taux de disponibilité SLA (uptime)

Calculez le taux de disponibilité (uptime) d'un SLA à partir du temps d'indisponibilité sur n'importe quelle période. Convertissez des minutes de panne en pourcentage façon 99,9 %.
Calculateur de coût des VM cloud / instances EC2

Estimez le coût mensuel, quotidien et annuel de vos VM cloud ou instances AWS EC2 selon le nombre d'instances, le tarif horaire et les heures par mois.
Convertisseur Mbps en Gbps

Convertissez vos Mbps en Gbps en un instant. Saisissez votre débit en mégabits par seconde et obtenez l'équivalent en gigabits par seconde (Gbps = Mbps / 1000).
Calculateur du coût de consommation électrique d'un serveur

Calculez le coût électrique mensuel et annuel de serveurs fonctionnant 24h/24. Saisissez les watts, le prix du kWh et le nombre de serveurs pour estimer la facture.