LLM VRAM İhtiyacı Hesaplama Aracı nedir?
Bu araç, bir büyük dil modelini (LLM) çıkarım (inference) için yüklemek ve çalıştırmak amacıyla ne kadar GPU video belleğine (VRAM) ihtiyacınız olduğunu tahmin eder. Gereken bellek miktarını belirleyen başlıca iki etken, modelin parametre sayısı ve her ağırlığın saklandığı sayısal hassasiyettir. Bir güvenlik/ek yük faktörü ise; KV önbelleği, aktivasyonlar ve CUDA bağlamı gibi, ham ağırlıkların ötesinde bellek tüketen unsurları hesaba katar.
Nasıl kullanılır?
Model boyutunu milyar parametre cinsinden girin (örneğin 7B model için 7, Llama-3 70B için 70). Ardından hassasiyeti seçin: FP32 her ağırlık için 4 bayt, FP16/BF16 2 bayt, INT8 1 bayt ve INT4 nicemlemesi (quantization) 0,5 bayt kullanır. Son olarak ek yük faktörünü belirleyin — kısa bağlamlı çıkarım için 1,2 (yani %20'lik bir tampon) makul bir varsayılan değerdir; uzun bağlamlar veya toplu işlem (batching) için bu değeri artırın.
Formülün açıklaması
$$\text{VRAM (GB)} = \text{Parametre (milyar)} \times \text{Parametre başına bayt} \times \text{Ek yük}$$ 1 milyar bayt ≈ 1 GB olduğundan, milyar cinsinden parametre sayısını parametre başına bayt değeriyle çarpmak doğrudan gigabayt sonucunu verir. Ek yük faktörü de bu sonucu, çalışma zamanı belleğini kapsayacak şekilde ölçeklendirir.
Örnek hesaplama
FP16 formatında ve 1,2 ek yük faktörüyle 7B'lik bir model için: $$7 \times 2 \times 1{,}2 = 16{,}8 \text{ GB}$$ Bu değer, 24 GB'lık bir ekran kartına rahatlıkla sığar. Aynı model INT4 ile: $$7 \times 0{,}5 \times 1{,}2 = 4{,}2 \text{ GB}$$ yani 8 GB'lık bir GPU'da kolayca çalışır.
Sıkça Sorulan Sorular
Gerçek kullanım neden ham ağırlıklardan daha yüksek? KV önbelleği, bağlam uzunluğu ve toplu işlem boyutuyla birlikte büyür; ayrıca çerçeve (framework), aktivasyonlar ve tamponlar için bellek ayırır. İşte ek yük faktörü tam olarak bunu yaklaşık olarak hesaplar.
Bu hesaplama eğitimi (training) de kapsıyor mu? Hayır. Eğitim; optimizer durumları ve gradyanlar için kabaca 3–4 kat daha fazla bellek gerektirir. Bu tahmin yalnızca çıkarımı (inference) hedefler.
Hangi ek yük değerini kullanmalıyım? Kısa istemler (prompt) için yaklaşık 1,2; uzun bağlamlar veya yoğun toplu işlem için 1,5–2,0 ve üzeri değerler kullanın.