Калькулятор требований к VRAM для LLM

Подключиться через MCP →

Введите расчет

Математическая формула

Результатов

Требуемый объём VRAM (оценка)

16,8

ГБ видеопамяти GPU

Чистый размер весов	14 GB
Байт на параметр	2
Коэффициент запаса	1,2×

Что считает этот калькулятор

Калькулятор VRAM для LLM показывает, сколько видеопамяти GPU потребуется, чтобы загрузить и запустить большую языковую модель. Он умножает число параметров модели (в миллиардах) на количество байт, которое занимает каждый параметр при выбранной точности, а затем добавляет коэффициент запаса — на активации, KV-кэш и служебные буферы фреймворка.

Как пользоваться

Укажите размер модели в миллиардах параметров (например, 7 для модели 7B или 70 для 70B). Выберите квантование: FP16/BF16 — 2 байта на вес, INT8 — 1 байт, 4-бит — 0,5 байта, 2-бит — 0,25 байта. Значение запаса по умолчанию 1,2 (то есть +20%) — разумная точка отсчёта для инференса; увеличивайте его при длинном контексте или пакетной обработке.

Разбор формулы

$$\text{VRAM (ГБ)} = \text{параметры (млрд)} \times \text{байт на параметр} \times \text{коэффициент запаса}$$ Первые два множителя дают «чистый» объём весов модели в гигабайтах. Коэффициент запаса резервирует дополнительную память, которую во время работы потребляют PyTorch, CUDA и KV-кэш механизма внимания, — её один лишь размер весов не учитывает.

Три столбца, сравнивающие VRAM для квантизации FP16, 8 бит и 4 бита — Меньшая точность (8 бит, 4 бита) примерно вдвое уменьшает число байтов на параметр и требуемый объём VRAM.

Столбчатая диаграмма с накоплением, показывающая разбивку VRAM на веса, KV-кэш и накладные расходы — Основную часть VRAM занимают веса модели, плюс дополнительно нужно место под KV-кэш и накладные расходы.

Пример расчёта

Модель 7B в 4-битной точности: $$7 \times 0{,}5 = 3{,}5 \text{ ГБ весов}$$ С коэффициентом запаса 1,2: $$3{,}5 \times 1{,}2 = 4{,}2 \text{ ГБ}$$ Это спокойно помещается на потребительскую видеокарту с 8 ГБ. Та же модель в FP16 требует $7 \times 2 \times 1{,}2 = 16{,}8$ ГБ — а значит, нужна карта на 24 ГБ.

Частые вопросы

Это точный расчёт? Нет — это оценка для инференса. Реальное потребление зависит от длины контекста, размера батча и используемого фреймворка. Опирайтесь на эти цифры при планировании, но не до последнего мегабайта.

Учитывается ли память для обучения? Нет. Обучению нужно гораздо больше — на состояния оптимизатора и градиенты уходит зачастую в 4 раза и более от объёма для инференса.

Какой коэффициент запаса выбрать? 1,2 подходит для инференса с коротким контекстом; используйте 1,3–1,5 при длинном контексте или одновременных запросах.

Последнее обновление: 19 июня 2026 г.

Самые популярные в разделе Футуристические и развивающиеся технологии

Все калькуляторы раздела Футуристические и развивающиеся технологии →

Открыть

Калькулятор дозы перекиси водорода для собак

Рассчитайте дозу 3% перекиси водорода для вызова рвоты у собаки по весу (1–2 мл/кг, максимум 45 мл). Всегда сначала консультируйтесь с ветеринаром.
Калькулятор затрат на электричество для майнинга

Рассчитайте стоимость электроэнергии для майнинг-фермы. Укажите мощность в ваттах, цену за кВт·ч и число дней — узнайте дневные, месячные и общие расходы.
Калькулятор процента повышения зарплаты

Узнайте процент повышения зарплаты по старому и новому окладу. Введите обе суммы — и увидите рост в долларах и процент прибавки мгновенно.
Калькулятор налога с продаж в Нью-Йорке

Рассчитайте налог с продаж в Нью-Йорке (США) и итоговую цену. По умолчанию ставка Нью-Йорка 8,875%; меняйте её под любой округ штата NY.
Калькулятор времени скачивания файла и передачи данных

Рассчитайте, сколько времени займёт загрузка файла или передача данных, исходя из размера файла и скорости соединения. Поддерживает КБ, МБ, ГБ, ТБ и Кбит/с — Гбит/с, МБ/с.