Подключиться через MCP →

Введите расчет

Математическая формула

Реклама

Результатов

Требуемый объём VRAM (оценка)
16,8
ГБ видеопамяти GPU
Чистый размер весов 14 GB
Байт на параметр 2
Коэффициент запаса 1,2×

Что считает этот калькулятор

Калькулятор VRAM для LLM показывает, сколько видеопамяти GPU потребуется, чтобы загрузить и запустить большую языковую модель. Он умножает число параметров модели (в миллиардах) на количество байт, которое занимает каждый параметр при выбранной точности, а затем добавляет коэффициент запаса — на активации, KV-кэш и служебные буферы фреймворка.

Как пользоваться

Укажите размер модели в миллиардах параметров (например, 7 для модели 7B или 70 для 70B). Выберите квантование: FP16/BF16 — 2 байта на вес, INT8 — 1 байт, 4-бит — 0,5 байта, 2-бит — 0,25 байта. Значение запаса по умолчанию 1,2 (то есть +20%) — разумная точка отсчёта для инференса; увеличивайте его при длинном контексте или пакетной обработке.

Разбор формулы

$$\text{VRAM (ГБ)} = \text{параметры (млрд)} \times \text{байт на параметр} \times \text{коэффициент запаса}$$ Первые два множителя дают «чистый» объём весов модели в гигабайтах. Коэффициент запаса резервирует дополнительную память, которую во время работы потребляют PyTorch, CUDA и KV-кэш механизма внимания, — её один лишь размер весов не учитывает.

Три столбца, сравнивающие VRAM для квантизации FP16, 8 бит и 4 бита
Меньшая точность (8 бит, 4 бита) примерно вдвое уменьшает число байтов на параметр и требуемый объём VRAM.
Столбчатая диаграмма с накоплением, показывающая разбивку VRAM на веса, KV-кэш и накладные расходы
Основную часть VRAM занимают веса модели, плюс дополнительно нужно место под KV-кэш и накладные расходы.

Пример расчёта

Модель 7B в 4-битной точности: $$7 \times 0{,}5 = 3{,}5 \text{ ГБ весов}$$ С коэффициентом запаса 1,2: $$3{,}5 \times 1{,}2 = 4{,}2 \text{ ГБ}$$ Это спокойно помещается на потребительскую видеокарту с 8 ГБ. Та же модель в FP16 требует \(7 \times 2 \times 1{,}2 = 16{,}8\) ГБ — а значит, нужна карта на 24 ГБ.

Частые вопросы

Это точный расчёт? Нет — это оценка для инференса. Реальное потребление зависит от длины контекста, размера батча и используемого фреймворка. Опирайтесь на эти цифры при планировании, но не до последнего мегабайта.

Учитывается ли память для обучения? Нет. Обучению нужно гораздо больше — на состояния оптимизатора и градиенты уходит зачастую в 4 раза и более от объёма для инференса.

Какой коэффициент запаса выбрать? 1,2 подходит для инференса с коротким контекстом; используйте 1,3–1,5 при длинном контексте или одновременных запросах.

Последнее обновление: