MCPで接続 →

計算を入力してください

公式

広告

結果

推定必要VRAM
16.8
GBのGPUメモリ
重みのみの容量 14 GB
1パラメータあたりのバイト数 2
オーバーヘッド係数 1.2×

このツールでできること

LLM VRAM要件計算ツールは、大規模言語モデルを読み込んで動かすために必要なGPUメモリ量を推定します。仕組みはシンプルで、モデルのパラメータ数(10億=Billion単位)に、選択した精度1パラメータあたりのバイト数を掛け合わせ、さらにオーバーヘッド係数を乗じます。このオーバーヘッドは、アクティベーション・KVキャッシュ・フレームワークが確保するバッファなど、実行時に追加で消費されるメモリを見込んだものです。

使い方

まずモデルサイズを10億パラメータ単位で入力します(例:7Bモデルなら「7」、70Bモデルなら「70」)。次に量子化方式を選びます。FP16/BF16は1重みあたり2バイト、INT8は1バイト、4bitは0.5バイト、2bitは0.25バイトです。オーバーヘッドの初期値1.2(20%のバッファ)は、推論用途のおおよその目安として妥当な値です。長いコンテキストやバッチ処理を行う場合は、この値を大きめに設定してください。

計算式の解説

$$\text{VRAM (GB)} = \text{Params (B)} \times \text{Bytes/Param} \times \text{Overhead}$$最初の2項で、モデル重みそのものの容量(GB)が求まります。オーバーヘッド係数は、PyTorch・CUDA・アテンションのKVキャッシュが実行時に消費する追加メモリ分を上乗せするためのもので、重みの容量だけでは見落とされる部分を補います。

FP16・8ビット・4ビット量子化のVRAMを比較する3本の棒グラフ
低精度(8ビット・4ビット)にすると、パラメータあたりのバイト数と必要なVRAMがほぼ半分になります。
VRAMを重み・KVキャッシュ・オーバーヘッドに分けて示す積み上げ棒グラフ
VRAM全体の大半はモデルの重みが占め、さらにKVキャッシュとオーバーヘッド分が加わります。

計算例

7Bモデルを4bit精度で動かす場合:\(7 \times 0.5 = 3.5\,\text{GB}\)が重みの容量です。これにオーバーヘッド係数1.2を掛けると、$$3.5 \times 1.2 = 4.2\,\text{GB}$$8GBのコンシューマー向けGPUに余裕で収まります。一方、同じモデルをFP16で動かすと \(7 \times 2 \times 1.2 = 16.8\,\text{GB}\) となり、24GBクラスのカードが必要になります。

よくある質問

この数値は正確ですか? いいえ。あくまで推論時のおおよその目安です。実際の使用量はコンテキスト長・バッチサイズ・推論フレームワークによって変わります。メガバイト単位の厳密な見積もりではなく、構成を検討する際の目安としてお使いください。

学習(トレーニング)に必要なメモリも含まれますか? 含まれません。学習にはオプティマイザの状態や勾配など、はるかに多くのメモリが必要で、推論時の4倍以上になることも珍しくありません。

オーバーヘッドはどの値にすべき? 短いコンテキストでの推論なら1.2で十分です。長いコンテキストや複数リクエストを同時に処理する場合は1.3〜1.5を目安にしてください。

最終更新: