LLM VRAM計算ツール｜大規模言語モデルに必要なGPUメモリを推定

計算を入力してください

結果

推定必要VRAM

16.8

GBのGPUメモリ

重みのみの容量	14 GB
1パラメータあたりのバイト数	2
オーバーヘッド係数	1.2×

このツールでできること

LLM VRAM要件計算ツールは、大規模言語モデルを読み込んで動かすために必要なGPUメモリ量を推定します。仕組みはシンプルで、モデルのパラメータ数（10億＝Billion単位）に、選択した精度1パラメータあたりのバイト数を掛け合わせ、さらにオーバーヘッド係数を乗じます。このオーバーヘッドは、アクティベーション・KVキャッシュ・フレームワークが確保するバッファなど、実行時に追加で消費されるメモリを見込んだものです。

使い方

まずモデルサイズを10億パラメータ単位で入力します（例：7Bモデルなら「7」、70Bモデルなら「70」）。次に量子化方式を選びます。FP16/BF16は1重みあたり2バイト、INT8は1バイト、4bitは0.5バイト、2bitは0.25バイトです。オーバーヘッドの初期値1.2（20%のバッファ）は、推論用途のおおよその目安として妥当な値です。長いコンテキストやバッチ処理を行う場合は、この値を大きめに設定してください。

計算式の解説

$$\text{VRAM (GB)} = \text{Params (B)} \times \text{Bytes/Param} \times \text{Overhead}$$最初の2項で、モデル重みそのものの容量（GB）が求まります。オーバーヘッド係数は、PyTorch・CUDA・アテンションのKVキャッシュが実行時に消費する追加メモリ分を上乗せするためのもので、重みの容量だけでは見落とされる部分を補います。

FP16・8ビット・4ビット量子化のVRAMを比較する3本の棒グラフ — 低精度（8ビット・4ビット）にすると、パラメータあたりのバイト数と必要なVRAMがほぼ半分になります。

VRAMを重み・KVキャッシュ・オーバーヘッドに分けて示す積み上げ棒グラフ — VRAM全体の大半はモデルの重みが占め、さらにKVキャッシュとオーバーヘッド分が加わります。

計算例

7Bモデルを4bit精度で動かす場合：$7 \times 0.5 = 3.5\,\text{GB}$が重みの容量です。これにオーバーヘッド係数1.2を掛けると、$$3.5 \times 1.2 = 4.2\,\text{GB}$$8GBのコンシューマー向けGPUに余裕で収まります。一方、同じモデルをFP16で動かすと $7 \times 2 \times 1.2 = 16.8\,\text{GB}$ となり、24GBクラスのカードが必要になります。