Что такое калькулятор токенов в слова и стоимость?
Большие языковые модели (LLM) — такие как GPT, Claude и Gemini — обрабатывают текст не словами, а токенами. Токен — это фрагмент текста, чаще всего часть слова длиной около четырёх символов. Этот калькулятор оценивает, сколько слов соответствует заданному числу токенов и во сколько эти токены обойдутся, исходя из цены модели за 1000 токенов. Важно: цены провайдеры обычно указывают в долларах США ($), поэтому результат тоже считается в долларах — при необходимости пересчитайте сумму в рубли по актуальному курсу.
Как пользоваться калькулятором
Введите количество токенов, коэффициент «слов на токен» (значение 0,75 хорошо подходит для текста на английском языке) и цену, которую ваш провайдер берёт за 1000 токенов. Калькулятор мгновенно покажет примерное число слов и стоимость в долларах.
Разбор формулы
Оценка количества слов считается по формуле $$\text{слова} \approx \text{токены} \times 0{,}75$$ — это отражает популярное эмпирическое правило: 1000 токенов соответствуют примерно 750 словам английского текста. Стоимость рассчитывается как $$\text{стоимость} = \frac{\text{токены}}{1000} \times \text{цена за 1000}$$ поскольку провайдеры выставляют счёт за каждую тысячу токенов. Для других языков (в том числе русского) или для кода уменьшайте коэффициент: они, как правило, «съедают» больше токенов на слово.
Пример расчёта
Допустим, у вас 1000 токенов, коэффициент 0,75 и цена $0,50 за 1000 токенов. Тогда слова $$= 1000 \times 0{,}75 = \textbf{750 слов}$$ Стоимость $$= \frac{1000}{1000} \times \$0{,}50 = \mathbf{\$0{,}50}$$
Частые вопросы
Насколько точна оценка количества слов? Это приблизительный расчёт. Реальная токенизация зависит от модели и содержания текста; 0,75 слова на токен — надёжное среднее значение именно для английского языка.
Входные и выходные токены стоят одинаково? Нет — у многих провайдеров тарифы различаются. Запустите калькулятор дважды, для каждой цены отдельно, и сложите результаты.
Почему код и тексты не на английском считаются иначе? В них на одно слово приходится больше токенов, поэтому снижайте коэффициент (например, до 0,5) для более точной оценки. Для русского языка это особенно актуально.