LLM VRAM 요구량 계산기

계산 입력

결과

필요 VRAM 추정치

16.8

GB의 GPU 메모리

순수 가중치 크기	14 GB
파라미터당 바이트 수	2
오버헤드 계수	1.2×

이 계산기로 무엇을 알 수 있나요

LLM VRAM 요구량 계산기는 대규모 언어 모델을 로딩하고 실행하는 데 GPU 메모리가 얼마나 필요한지 추정해 줍니다. 모델의 파라미터 수(10억 단위)에 선택한 정밀도에서 파라미터 하나가 차지하는 바이트 수를 곱한 뒤, 활성화 값(activation), KV 캐시, 프레임워크 버퍼 등을 감안한 오버헤드 계수를 적용하는 방식입니다.

사용 방법

모델 크기를 10억 파라미터 단위로 입력하세요(예: 7B 모델이면 7, 70B 모델이면 70). 그다음 양자화 방식을 고릅니다. FP16/BF16은 가중치당 2바이트, INT8은 1바이트, 4비트는 0.5바이트, 2비트는 0.25바이트를 사용합니다. 기본 오버헤드 값인 1.2(20% 여유분)는 추론(inference)용으로 무난한 출발점입니다. 긴 컨텍스트나 배치 처리 작업이라면 이 값을 더 높여 주세요.

계산식 설명

$$\text{VRAM (GB)} = \text{Params (B)} \times \text{Bytes/Param} \times \text{Overhead}$$ 앞의 두 항은 모델 가중치의 순수 크기(GB)를 나타냅니다. 오버헤드 계수는 PyTorch, CUDA, 어텐션 KV 캐시가 실행 중에 추가로 소비하는 메모리를 확보해 주는데, 이는 가중치 크기만으로는 계산되지 않는 부분입니다.

FP16, 8비트, 4비트 양자화의 VRAM을 비교하는 세 개의 막대 — 낮은 정밀도(8비트, 4비트)는 파라미터당 바이트 수와 필요한 VRAM을 거의 절반으로 줄입니다.

VRAM을 가중치, KV 캐시, 오버헤드로 나눠 보여주는 누적 막대그래프 — 전체 VRAM은 대부분 모델 가중치가 차지하며, KV 캐시와 오버헤드가 추가로 듭니다.

예시로 살펴보기

7B 모델을 4비트 정밀도로 돌린다면: $7 \times 0.5 = 3.5\,\text{GB}$ 가중치. 여기에 오버헤드 계수 1.2를 적용하면 $$3.5 \times 1.2 = 4.2\,\text{GB}$$ 가 됩니다. 8GB 보급형 GPU에도 여유 있게 들어가는 수준이죠. 같은 모델을 FP16으로 돌리면 $7 \times 2 \times 1.2 = 16.8\,\text{GB}$가 필요해, 24GB짜리 카드가 있어야 합니다.