MCP ile bağlan →

Hesaplamaya Girin

Formül

Reklam

Sonuç

Tahmini Gereken VRAM
16,8
GB
Ham model ağırlıkları 14 GB
Ek yük (KV önbelleği, aktivasyonlar vb.) 2,8 GB

LLM VRAM İhtiyacı Hesaplama Aracı nedir?

Bu araç, bir büyük dil modelini (LLM) çıkarım (inference) için yüklemek ve çalıştırmak amacıyla ne kadar GPU video belleğine (VRAM) ihtiyacınız olduğunu tahmin eder. Gereken bellek miktarını belirleyen başlıca iki etken, modelin parametre sayısı ve her ağırlığın saklandığı sayısal hassasiyettir. Bir güvenlik/ek yük faktörü ise; KV önbelleği, aktivasyonlar ve CUDA bağlamı gibi, ham ağırlıkların ötesinde bellek tüketen unsurları hesaba katar.

Nasıl kullanılır?

Model boyutunu milyar parametre cinsinden girin (örneğin 7B model için 7, Llama-3 70B için 70). Ardından hassasiyeti seçin: FP32 her ağırlık için 4 bayt, FP16/BF16 2 bayt, INT8 1 bayt ve INT4 nicemlemesi (quantization) 0,5 bayt kullanır. Son olarak ek yük faktörünü belirleyin — kısa bağlamlı çıkarım için 1,2 (yani %20'lik bir tampon) makul bir varsayılan değerdir; uzun bağlamlar veya toplu işlem (batching) için bu değeri artırın.

Formülün açıklaması

$$\text{VRAM (GB)} = \text{Parametre (milyar)} \times \text{Parametre başına bayt} \times \text{Ek yük}$$ 1 milyar bayt ≈ 1 GB olduğundan, milyar cinsinden parametre sayısını parametre başına bayt değeriyle çarpmak doğrudan gigabayt sonucunu verir. Ek yük faktörü de bu sonucu, çalışma zamanı belleğini kapsayacak şekilde ölçeklendirir.

FP32, FP16, INT8 ve INT4 hassasiyetleri için parametre başına bayt karşılaştırması (çubuk grafik)
Düşük hassasiyetli formatlar parametre başına daha az bayt kullanarak VRAM'i azaltır.
Modelin parametre sayısının, parametre başına bayt ve bir ek yük katsayısıyla çarpılarak toplam GPU VRAM'ini verdiğini gösteren şema
VRAM = parametre sayısı × parametre başına bayt × ek yük katsayısı.

Örnek hesaplama

FP16 formatında ve 1,2 ek yük faktörüyle 7B'lik bir model için: $$7 \times 2 \times 1{,}2 = 16{,}8 \text{ GB}$$ Bu değer, 24 GB'lık bir ekran kartına rahatlıkla sığar. Aynı model INT4 ile: $$7 \times 0{,}5 \times 1{,}2 = 4{,}2 \text{ GB}$$ yani 8 GB'lık bir GPU'da kolayca çalışır.

Sıkça Sorulan Sorular

Gerçek kullanım neden ham ağırlıklardan daha yüksek? KV önbelleği, bağlam uzunluğu ve toplu işlem boyutuyla birlikte büyür; ayrıca çerçeve (framework), aktivasyonlar ve tamponlar için bellek ayırır. İşte ek yük faktörü tam olarak bunu yaklaşık olarak hesaplar.

Bu hesaplama eğitimi (training) de kapsıyor mu? Hayır. Eğitim; optimizer durumları ve gradyanlar için kabaca 3–4 kat daha fazla bellek gerektirir. Bu tahmin yalnızca çıkarımı (inference) hedefler.

Hangi ek yük değerini kullanmalıyım? Kısa istemler (prompt) için yaklaşık 1,2; uzun bağlamlar veya yoğun toplu işlem için 1,5–2,0 ve üzeri değerler kullanın.

Son güncelleme: