MCP๋กœ ์—ฐ๊ฒฐ โ†’

๊ณ„์‚ฐ ์ž…๋ ฅ

๊ณต์‹

๊ด‘๊ณ 

๊ฒฐ๊ณผ

ํ•„์š” VRAM ์ถ”์ •์น˜
16.8
GB์˜ GPU ๋ฉ”๋ชจ๋ฆฌ
์ˆœ์ˆ˜ ๊ฐ€์ค‘์น˜ ํฌ๊ธฐ 14 GB
ํŒŒ๋ผ๋ฏธํ„ฐ๋‹น ๋ฐ”์ดํŠธ ์ˆ˜ 2
์˜ค๋ฒ„ํ—ค๋“œ ๊ณ„์ˆ˜ 1.2ร—

์ด ๊ณ„์‚ฐ๊ธฐ๋กœ ๋ฌด์—‡์„ ์•Œ ์ˆ˜ ์žˆ๋‚˜์š”

LLM VRAM ์š”๊ตฌ๋Ÿ‰ ๊ณ„์‚ฐ๊ธฐ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ๋กœ๋”ฉํ•˜๊ณ  ์‹คํ–‰ํ•˜๋Š” ๋ฐ GPU ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํ•„์š”ํ•œ์ง€ ์ถ”์ •ํ•ด ์ค๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜(10์–ต ๋‹จ์œ„)์— ์„ ํƒํ•œ ์ •๋ฐ€๋„์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•˜๋‚˜๊ฐ€ ์ฐจ์ง€ํ•˜๋Š” ๋ฐ”์ดํŠธ ์ˆ˜๋ฅผ ๊ณฑํ•œ ๋’ค, ํ™œ์„ฑํ™” ๊ฐ’(activation), KV ์บ์‹œ, ํ”„๋ ˆ์ž„์›Œํฌ ๋ฒ„ํผ ๋“ฑ์„ ๊ฐ์•ˆํ•œ ์˜ค๋ฒ„ํ—ค๋“œ ๊ณ„์ˆ˜๋ฅผ ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

์‚ฌ์šฉ ๋ฐฉ๋ฒ•

๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ 10์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋‹จ์œ„๋กœ ์ž…๋ ฅํ•˜์„ธ์š”(์˜ˆ: 7B ๋ชจ๋ธ์ด๋ฉด 7, 70B ๋ชจ๋ธ์ด๋ฉด 70). ๊ทธ๋‹ค์Œ ์–‘์žํ™” ๋ฐฉ์‹์„ ๊ณ ๋ฆ…๋‹ˆ๋‹ค. FP16/BF16์€ ๊ฐ€์ค‘์น˜๋‹น 2๋ฐ”์ดํŠธ, INT8์€ 1๋ฐ”์ดํŠธ, 4๋น„ํŠธ๋Š” 0.5๋ฐ”์ดํŠธ, 2๋น„ํŠธ๋Š” 0.25๋ฐ”์ดํŠธ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์˜ค๋ฒ„ํ—ค๋“œ ๊ฐ’์ธ 1.2(20% ์—ฌ์œ ๋ถ„)๋Š” ์ถ”๋ก (inference)์šฉ์œผ๋กœ ๋ฌด๋‚œํ•œ ์ถœ๋ฐœ์ ์ž…๋‹ˆ๋‹ค. ๊ธด ์ปจํ…์ŠคํŠธ๋‚˜ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ ์ž‘์—…์ด๋ผ๋ฉด ์ด ๊ฐ’์„ ๋” ๋†’์—ฌ ์ฃผ์„ธ์š”.

๊ณ„์‚ฐ์‹ ์„ค๋ช…

$$\text{VRAM (GB)} = \text{Params (B)} \times \text{Bytes/Param} \times \text{Overhead}$$ ์•ž์˜ ๋‘ ํ•ญ์€ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜์˜ ์ˆœ์ˆ˜ ํฌ๊ธฐ(GB)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์˜ค๋ฒ„ํ—ค๋“œ ๊ณ„์ˆ˜๋Š” PyTorch, CUDA, ์–ดํ…์…˜ KV ์บ์‹œ๊ฐ€ ์‹คํ–‰ ์ค‘์— ์ถ”๊ฐ€๋กœ ์†Œ๋น„ํ•˜๋Š” ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ™•๋ณดํ•ด ์ฃผ๋Š”๋ฐ, ์ด๋Š” ๊ฐ€์ค‘์น˜ ํฌ๊ธฐ๋งŒ์œผ๋กœ๋Š” ๊ณ„์‚ฐ๋˜์ง€ ์•Š๋Š” ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค.

FP16, 8๋น„ํŠธ, 4๋น„ํŠธ ์–‘์žํ™”์˜ VRAM์„ ๋น„๊ตํ•˜๋Š” ์„ธ ๊ฐœ์˜ ๋ง‰๋Œ€
๋‚ฎ์€ ์ •๋ฐ€๋„(8๋น„ํŠธ, 4๋น„ํŠธ)๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋‹น ๋ฐ”์ดํŠธ ์ˆ˜์™€ ํ•„์š”ํ•œ VRAM์„ ๊ฑฐ์˜ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ž…๋‹ˆ๋‹ค.
VRAM์„ ๊ฐ€์ค‘์น˜, KV ์บ์‹œ, ์˜ค๋ฒ„ํ—ค๋“œ๋กœ ๋‚˜๋ˆ  ๋ณด์—ฌ์ฃผ๋Š” ๋ˆ„์  ๋ง‰๋Œ€๊ทธ๋ž˜ํ”„
์ „์ฒด VRAM์€ ๋Œ€๋ถ€๋ถ„ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๊ฐ€ ์ฐจ์ง€ํ•˜๋ฉฐ, KV ์บ์‹œ์™€ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ์ถ”๊ฐ€๋กœ ๋“ญ๋‹ˆ๋‹ค.

์˜ˆ์‹œ๋กœ ์‚ดํŽด๋ณด๊ธฐ

7B ๋ชจ๋ธ์„ 4๋น„ํŠธ ์ •๋ฐ€๋„๋กœ ๋Œ๋ฆฐ๋‹ค๋ฉด: \(7 \times 0.5 = 3.5\,\text{GB}\) ๊ฐ€์ค‘์น˜. ์—ฌ๊ธฐ์— ์˜ค๋ฒ„ํ—ค๋“œ ๊ณ„์ˆ˜ 1.2๋ฅผ ์ ์šฉํ•˜๋ฉด $$3.5 \times 1.2 = 4.2\,\text{GB}$$ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. 8GB ๋ณด๊ธ‰ํ˜• GPU์—๋„ ์—ฌ์œ  ์žˆ๊ฒŒ ๋“ค์–ด๊ฐ€๋Š” ์ˆ˜์ค€์ด์ฃ . ๊ฐ™์€ ๋ชจ๋ธ์„ FP16์œผ๋กœ ๋Œ๋ฆฌ๋ฉด \(7 \times 2 \times 1.2 = 16.8\,\text{GB}\)๊ฐ€ ํ•„์š”ํ•ด, 24GB์งœ๋ฆฌ ์นด๋“œ๊ฐ€ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์ž์ฃผ ๋ฌป๋Š” ์งˆ๋ฌธ

์ด ์ˆ˜์น˜๊ฐ€ ์ •ํ™•ํ•œ๊ฐ€์š”? ์•„๋‹™๋‹ˆ๋‹ค. ์–ด๋””๊นŒ์ง€๋‚˜ ์ถ”๋ก ์šฉ ์ถ”์ •์น˜์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ์‚ฌ์šฉ๋Ÿ‰์€ ์ปจํ…์ŠคํŠธ ๊ธธ์ด, ๋ฐฐ์น˜ ํฌ๊ธฐ, ์„œ๋น™ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค. ๋ฉ”๊ฐ€๋ฐ”์ดํŠธ ๋‹จ์œ„๊นŒ์ง€ ๋”ฐ์ง€๊ธฐ๋ณด๋‹ค๋Š” ๊ณ„ํš์„ ์„ธ์šฐ๋Š” ์šฉ๋„๋กœ ํ™œ์šฉํ•˜์„ธ์š”.

ํ•™์Šต(training)์— ํ•„์š”ํ•œ ๋ฉ”๋ชจ๋ฆฌ๋„ ํฌํ•จ๋˜๋‚˜์š”? ์•„๋‹™๋‹ˆ๋‹ค. ํ•™์Šต์—๋Š” ์˜ตํ‹ฐ๋งˆ์ด์ € ์ƒํƒœ, ๊ทธ๋ž˜๋””์–ธํŠธ ๋“ฑ ๋•Œ๋ฌธ์— ํ›จ์”ฌ ๋” ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ์ถ”๋ก  ์ˆ˜์น˜์˜ 4๋ฐฐ ์ด์ƒ์ด ๋“œ๋Š” ๊ฒฝ์šฐ๋„ ํ”ํ•ฉ๋‹ˆ๋‹ค.

์˜ค๋ฒ„ํ—ค๋“œ๋Š” ์–ผ๋งˆ๋กœ ์žก์•„์•ผ ํ•˜๋‚˜์š”? ์งง์€ ์ปจํ…์ŠคํŠธ ์ถ”๋ก ์—๋Š” 1.2๋ฉด ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ๊ธด ์ปจํ…์ŠคํŠธ๋‚˜ ๋™์‹œ ์š”์ฒญ ์ฒ˜๋ฆฌ์—๋Š” 1.3~1.5๋ฅผ ์‚ฌ์šฉํ•˜์„ธ์š”.

์ตœ์ข… ์—…๋ฐ์ดํŠธ: