Bu hesaplayıcı ne işe yarar?
LLM VRAM İhtiyacı Hesaplayıcı, bir büyük dil modelini (LLM) yükleyip çalıştırmak için ne kadar GPU belleğine ihtiyacınız olduğunu tahmin eder. Modelin parametre sayısını (milyar cinsinden) seçtiğiniz hassasiyette her parametrenin kapladığı bayt sayısıyla çarpar; ardından aktivasyonları, KV önbelleğini ve çerçeve (framework) tamponlarını hesaba katmak için bir ek yük (overhead) çarpanı uygular.
Nasıl kullanılır?
Model boyutunu milyar parametre cinsinden girin (örneğin 7B model için 7, 70B model için 70). Ardından kuantizasyonu seçin: FP16/BF16 ağırlık başına 2 bayt, INT8 1 bayt, 4-bit 0,5 bayt ve 2-bit 0,25 bayt kullanır. Varsayılan 1,2 ek yük çarpanı (yani %20'lik bir tampon) çıkarım (inference) için makul bir başlangıç noktasıdır; uzun bağlamlı ya da toplu (batch) iş yüklerinde bu değeri artırın.
Formülün açıklaması
$$\text{VRAM (GB)} = \text{Parametre (milyar)} \times \text{parametre başına bayt} \times \text{ek yük}$$ İlk iki terim, model ağırlıklarının gigabayt cinsinden ham boyutunu verir. Ek yük çarpanı ise PyTorch, CUDA ve dikkat (attention) KV önbelleğinin çalışma sırasında tükettiği ekstra belleği ayırır; bu bellek yalnızca ham ağırlık boyutu hesaplandığında göz ardı edilir.
Örnek hesaplama
4-bit hassasiyette 7B'lik bir model: $$7 \times 0{,}5 = 3{,}5 \text{ GB ağırlık}$$ 1,2 ek yük çarpanıyla: $$3{,}5 \times 1{,}2 = 4{,}2 \text{ GB}$$ Bu, 8 GB'lik bir tüketici GPU'suna rahatça sığar. Aynı model FP16'da ise \(7 \times 2 \times 1{,}2 = 16{,}8\) GB gerektirir; bu da 24 GB'lik bir kart anlamına gelir.
Sık sorulan sorular
Bu sonuç kesin mi? Hayır — bu bir çıkarım (inference) tahminidir. Gerçek kullanım; bağlam uzunluğuna, toplu işlem (batch) boyutuna ve kullandığınız sunum çerçevesine göre değişir. Planlama için kullanın, son megabayta kadar kesinlik beklemeyin.
Eğitim (training) belleğini de kapsıyor mu? Hayır. Eğitim çok daha fazla bellek gerektirir (optimizer durumları, gradyanlar) — genellikle çıkarım değerinin 4 katı veya daha fazlası.
Hangi ek yük değerini kullanmalıyım? Kısa bağlamlı çıkarım için 1,2 yeterlidir; uzun bağlam ya da eşzamanlı istekler için 1,3–1,5 arasını tercih edin.