LLM 顯示記憶體需求計算機

輸入計算

數學公式

結果

預估所需顯示記憶體

16.8

純模型權重	14 GB
額外開銷（KV 快取、啟用值等）	2.8 GB

什麼是 LLM 顯示記憶體需求計算機？

這個工具能幫你估算載入並執行大型語言模型（LLM）進行推論時，所需的 GPU 顯示記憶體（VRAM）有多少。記憶體用量主要取決於模型的參數量，以及儲存每個權重所用的數值精度。此外，還有一個安全（額外開銷）係數，用來涵蓋 KV 快取、啟用值（activations）與 CUDA 環境等，這些都會在純權重之外額外佔用記憶體。

使用方式

以「十億參數」為單位輸入模型大小（例如 7B 模型輸入 7、Llama-3 70B 輸入 70）。接著選擇精度：FP32 每個權重佔 4 個位元組、FP16／BF16 佔 2 個位元組、INT8 佔 1 個位元組，而 INT4 量化僅佔 0.5 個位元組。最後設定額外開銷係數——對於短上下文的推論，1.2（保留 20% 緩衝）是相當合理的預設值；若是長上下文或需要批次處理，則應調高此數值。

公式解析

$$\text{VRAM (GB)} = \text{Params (B)} \times \text{Bytes/Param} \times \text{Overhead}$$由於 10 億位元組 ≈ 1 GB，將以「十億」為單位的參數量乘上每個參數的位元組數，便能直接得到 GB 數。再乘上額外開銷係數，就能涵蓋執行階段所需的記憶體。

FP32、FP16、INT8 與 INT4 精度下每個參數位元組數的長條對比 — 較低精度的格式每個參數占用較少位元組，因而減少顯示記憶體。

示意圖：模型參數量乘以每個參數的位元組數與額外負擔係數，得出 GPU 的總顯示記憶體 — 顯示記憶體 = 參數量 × 每個參數的位元組數 × 額外負擔係數。

實際範例

以 7B 模型、採 FP16 精度、額外開銷係數 1.2 為例：$$7 \times 2 \times 1.2 = 16.8 \text{ GB}$$可輕鬆容納於 24 GB 的顯示卡上。同一個模型若改用 INT4：$$7 \times 0.5 \times 1.2 = 4.2 \text{ GB}$$連 8 GB 的 GPU 都能輕鬆執行。

常見問題

為什麼實際用量會比純權重高？KV 快取會隨上下文長度與批次大小而增加，框架本身也會為啟用值與緩衝區保留記憶體——這正是額外開銷係數所要近似估算的部分。

這有包含訓練所需的記憶體嗎？沒有。訓練因為要儲存最佳化器狀態與梯度，大約需要 3～4 倍的記憶體；本估算僅針對推論（inference）。

我該用多少的額外開銷係數？短提示詞約用 1.2；長上下文或大量批次處理則建議使用 1.5～2.0 以上。

最後更新: 2026年6月19日

探索

電腦電源供應器（PSU）瓦數計算器

替你的電腦組裝估算合適的電源瓦數。輸入 CPU、顯卡、記憶體、硬碟與風扇，即可得到含 20% 餘裕的建議電源瓦數。
SLA 服務可用性百分比計算機

輸入任一週期內的停機時間，即可換算 SLA 正常運行時間與可用性百分比。快速把停機分鐘數轉成 99.9% 這類可用性數值。
雲端虛擬機器／EC2 執行個體成本試算器

輸入執行個體數量、每小時費率與每月運轉時數，即可估算雲端 VM 或 AWS EC2 執行個體的月、日、年成本。
Mbps 轉 Gbps 換算器

立即將 Mbps 換算成 Gbps。輸入以每秒百萬位元（Mbps）為單位的網速，即可得到對應的每秒十億位元（Gbps）數值（Gbps = Mbps ÷ 1000）。
伺服器耗電成本計算機

輸入功率（瓦）、每度電價與伺服器數量，立即估算 24 小時全年運轉的伺服器每月與每年電費，協助你掌握機房開支。