Calculateur de VRAM requise pour un LLM

Connectez-vous via MCP →

Entrez le calcul

Formule

Résultats

VRAM estimée requise

16,8

Go de mémoire GPU

Taille brute des poids	14 GB
Octets par paramètre	2
Facteur de marge	1,2×

À quoi sert ce calculateur

Le calculateur de VRAM pour LLM estime la quantité de mémoire GPU nécessaire pour charger et exécuter un grand modèle de langage (LLM). Il multiplie le nombre de paramètres du modèle (en milliards) par le nombre d'octets occupés par chaque paramètre à la précision choisie, puis applique un facteur de marge tenant compte des activations, du cache KV et des tampons du framework.

Comment l'utiliser

Indiquez la taille du modèle en milliards de paramètres (par exemple 7 pour un modèle 7B, 70 pour un modèle 70B). Choisissez la quantification : FP16/BF16 utilise 2 octets par poids, INT8 en utilise 1, le 4 bits 0,5 octet et le 2 bits 0,25 octet. La marge par défaut de 1,2 (soit un tampon de 20 %) constitue un bon point de départ pour l'inférence ; augmentez-la pour les contextes longs ou les traitements par lots.

La formule expliquée

$$\text{VRAM (Go)} = \text{Paramètres (milliards)} \times \text{octets par paramètre} \times \text{marge}$$ Les deux premiers termes donnent la taille brute des poids du modèle en gigaoctets. Le facteur de marge réserve la mémoire supplémentaire que consomment PyTorch, CUDA et le cache KV de l'attention au moment de l'exécution — une consommation que la seule taille des poids ne prend pas en compte.

Trois barres comparant la VRAM pour la quantification FP16, 8 bits et 4 bits — Une précision plus faible (8 bits, 4 bits) réduit de moitié environ les octets par paramètre et la VRAM nécessaire.

Diagramme à barres empilées montrant la VRAM répartie entre poids, cache KV et coûts annexes — La VRAM totale est dominée par les poids du modèle, plus un surplus pour le cache KV et les coûts annexes.

Exemple concret

Un modèle 7B en précision 4 bits : $7 \times 0{,}5 = 3{,}5$ Go de poids. Avec un facteur de marge de 1,2 : $3{,}5 \times 1{,}2 = 4{,}2$ Go. Cela tient sans problème sur un GPU grand public de 8 Go. Le même modèle en FP16 nécessite $7 \times 2 \times 1{,}2 = 16{,}8$ Go, ce qui exige une carte de 24 Go.

FAQ

Est-ce exact ? Non — il s'agit d'une estimation pour l'inférence. La consommation réelle varie selon la longueur du contexte, la taille des lots et le framework de service utilisé. Servez-vous-en pour planifier, pas au mégaoctet près.

Cela inclut-il la mémoire d'entraînement ? Non. L'entraînement demande beaucoup plus de mémoire (états de l'optimiseur, gradients), souvent 4 fois ou davantage le chiffre de l'inférence.

Quelle marge utiliser ? 1,2 convient pour une inférence à contexte court ; utilisez 1,3 à 1,5 pour les contextes longs ou les requêtes simultanées.

Dernière mise à jour: 19 juin 2026

Calculatrices associées

Convertisseur tokens-mots pour LLM

Convertissez instantanément les tokens des LLM en mots (et inversement). Estimez le nombre de mots d'un volume de tokens grâce à la règle des ~0,75 mot par token.
Calculateur de coût d'API LLM

Estimez le coût d'une API LLM à partir des tokens d'entrée/sortie et des tarifs par 1 000 tokens. Calculez le coût par requête et la dépense totale.
Calculateur de coût des tokens IA/LLM

Estimez le coût des appels d'API LLM à partir des tokens d'entrée/sortie et des prix par 1 000 tokens. Calculez le coût par appel et la dépense totale.
Calculateur de tokens LLM en mots et coût d'API

Convertissez les tokens LLM en nombre de mots estimé et calculez le coût d'API selon le prix pour 1 000 tokens. Estimation rapide pour GPT, Claude et autres modèles.
Calculateur de VRAM nécessaire pour un LLM

Estimez la VRAM GPU (Go) requise pour exécuter ou déployer un grand modèle de langage selon son nombre de paramètres, sa précision et un facteur de surcharge.

Découvrir

Calculateur de dose d'eau oxygénée pour faire vomir un chien

Calculez la dose d'eau oxygénée à 3 % pour faire vomir un chien selon son poids (1 à 2 mL/kg, max 45 mL). Appelez toujours votre vétérinaire avant.
Calculateur du coût d'électricité pour le minage de crypto

Calculez le coût d'électricité d'un rig de minage crypto. Saisissez les watts, votre tarif en $/kWh et la durée pour obtenir le coût quotidien, mensuel et total.
Calculateur de pourcentage d'augmentation de salaire

Calculez le pourcentage de votre augmentation à partir de votre ancien et nouveau salaire. Saisissez les deux montants en dollars pour obtenir le résultat instantanément.
Calculateur de taxe de vente de New York

Calculez la taxe de vente de New York et le prix total. Taux combiné de NYC à 8,875 % par défaut, ajustable selon le comté de l'État de NY (États-Unis).
Calculateur de temps de téléchargement et de transfert de données

Calculez la durée d'un téléchargement ou d'un transfert de fichiers à partir de la taille et du débit. Compatible Ko, Mo, Go, To et Kbit/s à Gbit/s, Mo/s.