LLM 顯存需求計算器

透過 MCP 連接 →

輸入計算

數學公式

結果

預估所需顯存

16.8

GB 的 GPU 記憶體

權重原始大小	14 GB
每參數位元組數	2
額外開銷係數	1.2×

這個計算器的用途

LLM 顯存需求計算器能幫你估算載入並執行大型語言模型所需的 GPU 記憶體。它會將模型的參數量（以十億為單位）乘上你所選精度下每個參數佔用的位元組數，再套用一個額外開銷係數，把激活值（activations）、KV 快取以及框架緩衝區等運算負擔一併納入考量。

使用方式

輸入模型大小，單位為十億參數（例如 7B 模型填 7、70B 模型填 70）。接著選擇量化精度：FP16/BF16 每個權重佔 2 位元組，INT8 佔 1 位元組，4-bit 佔 0.5 位元組，2-bit 則佔 0.25 位元組。預設的額外開銷係數為 1.2（也就是預留 20% 的緩衝），對推論用途來說是合理的起點；若你要處理長上下文或批次運算，可以再往上調高。

公式說明

$$\text{顯存 (GB)} = \text{參數量 (十億)} \times \text{每參數位元組數} \times \text{額外開銷係數}$$前兩項相乘可得出模型權重本身的大小（GB）。而額外開銷係數則用來預留 PyTorch、CUDA 以及注意力機制 KV 快取在執行階段所消耗的額外記憶體——這些都是單看權重大小所無法反映的。

Advertisement

三個長條，比較 FP16、8 位元和 4 位元量化的顯存佔用 — 更低精度（8 位元、4 位元）可將每個參數的位元組數和所需顯存大致減半。

堆疊長條圖，顯示顯存分為權重、KV 快取和額外開銷 — 總顯存主要由模型權重佔用，此外還需為 KV 快取和額外開銷預留空間。

實例試算

以 7B 模型搭配 4-bit 精度為例：\(7 \times 0.5 = 3.5\) GB 的權重。再乘上 1.2 的額外開銷係數：$$3.5 \times 1.2 = 4.2 \text{ GB}$$這樣的需求在 8 GB 的消費級顯示卡上可以從容運行。同一個模型若改用 FP16，則需要 \(7 \times 2 \times 1.2 = 16.8\) GB，這就得靠 24 GB 等級的顯示卡才跑得動了。

常見問題

這個數字準確嗎？不算精確——它是一個推論階段的估算值。實際用量會隨上下文長度、批次大小與所使用的服務框架而有所不同。建議拿來做規劃參考，不必斤斤計較到最後一 MB。

有把訓練所需的記憶體算進去嗎？沒有。訓練所需的記憶體遠遠更多（包含優化器狀態、梯度等），往往是推論數字的 4 倍以上。

額外開銷係數該設多少？短上下文推論用 1.2 就很夠了；若是長上下文或需要同時處理多個請求，建議調到 1.3～1.5。

最後更新: 2026年6月19日

相關計算器

LLM Token 字數換算器

即時換算 LLM 的 Token 與字數。以約 0.75 字／Token 的經驗法則，快速估算指定 Token 數約等於多少字，或反向計算。
LLM API 費用計算機

輸入 input／output token 數與每千 token 價格，立即估算 GPT、Claude、Gemini 等 LLM API 的單次請求費用與大量呼叫的總花費。
AI／LLM Token 費用計算機

依輸入／輸出 Token 數量與每千 Token 單價，估算 LLM API 呼叫費用。可算出每次呼叫成本與大量呼叫的總支出。
LLM Token 換算字數與費用計算機

將 LLM 的 token 數換算成預估字數，並依每 1,000 tokens 單價計算 API 費用。適用於 GPT、Claude 等模型的快速估算工具。
LLM 顯示記憶體需求計算機

依大型語言模型的參數量、精度與額外開銷係數，估算執行或部署 LLM 所需的 GPU 顯示記憶體（VRAM，單位 GB）。

探索

狗狗催吐雙氧水劑量計算器

依體重計算狗狗催吐所需的 3% 雙氧水劑量（每公斤 1–2 毫升，最多 45 毫升）。使用前請務必先諮詢獸醫。
加密貨幣挖礦電費計算機

輸入礦機瓦數、每度電價（$/kWh）與運轉天數，立即算出挖礦的每日、每月與總電費，掌握耗電成本。
加薪幅度計算機

輸入現有薪資與新薪資，立即算出加薪金額與加薪百分比，輕鬆比較offer、對照通膨與市場行情。
紐約銷售稅計算器

快速計算美國紐約州的銷售稅與含稅總價。預設使用紐約市 8.875% 合併稅率，也可依各郡稅率自由調整，精準又方便。
檔案下載與資料傳輸時間計算機

輸入檔案大小與網路速度，立即算出下載或傳輸所需時間。支援 KB、MB、GB、TB，以及 Kbps、Mbps、Gbps 與 MB/s。