Qu'est-ce que le convertisseur tokens-mots ?
Les grands modèles de langage (LLM) tels que GPT, Claude ou Gemini ne lisent pas le texte mot à mot : ils le traitent sous forme de tokens. Un token est un fragment de texte qui peut correspondre à un mot entier, à une partie de mot, voire à un signe de ponctuation. Pour un texte courant en anglais, un token équivaut à environ 0,75 mot (soit à peu près 1,33 token par mot). Cet outil transforme un nombre de tokens en une estimation de mots, ou un nombre de mots en tokens qu'ils consommeront probablement.
Comment l'utiliser
Choisissez un sens de conversion — Tokens vers mots ou Mots vers tokens —, saisissez votre valeur et, si vous le souhaitez, ajustez le ratio de mots par token (0,75 par défaut). Le résultat s'affiche immédiatement, accompagné du ratio appliqué. Baissez le ratio pour du code ou des textes en langue autre que l'anglais (qui mobilisent davantage de tokens), et augmentez-le pour de l'anglais simple et répétitif.
La formule expliquée
La conversion repose sur une simple règle de trois. Pour estimer les mots à partir des tokens :
$$\text{mots} = \text{tokens} \times \text{ratio}$$Pour estimer les tokens à partir des mots :
$$\text{tokens} = \frac{\text{mots}}{\text{ratio}}$$Avec le ratio par défaut de 0,75, \(1\,000\) tokens \(\approx 750\) mots, et \(1\,000\) mots \(\approx 1\,333\) tokens. Ce ne sont que des estimations : la tokenisation réelle dépend du modèle, de la langue et du contenu.
Exemple concret
Imaginons qu'un appel d'API indique avoir consommé 1 000 tokens. Avec le ratio par défaut :
$$1000 \times 0{,}75 = 750 \text{ mots}$$À l'inverse, si vous avez rédigé un essai de 1 500 mots et souhaitez connaître son coût en tokens :
$$\frac{1500}{0{,}75} = 2\,000 \text{ tokens}$$— pratique pour rester dans la fenêtre de contexte d'un modèle ou maîtriser votre budget d'API.
FAQ
La valeur de 0,75 mot par token est-elle toujours exacte ? Non : il s'agit d'une règle empirique largement citée pour l'anglais. Le code, les chiffres et les autres langues consomment souvent plus de tokens par mot ; appliquez alors un ratio plus faible.
Pourquoi les tokens sont-ils importants ? La tarification des LLM et les limites de contexte se mesurent en tokens, et non en mots. La conversion vous aide donc à estimer le coût et la capacité disponible.
Comment obtenir un décompte exact ? Utilisez le tokeniseur officiel du modèle (par exemple tiktoken pour OpenAI). Ce calculateur fournit une approximation rapide, et non un décompte exact.