À propos de cet outil
Estime la quantité de tokens dans un texte, avec des approximations pour les principaux modèles de langage actuels. Utile pour prédire le coût et les limites lors de l'utilisation de modèles d'IA via API, dimensionner des prompts avant de les envoyer, comparer la verbosité de différentes formulations, ou simplement comprendre la relation entre mots et tokens.
Comment l'utiliser
- Collez le texte dans la zone.
- Voyez le décompte approximatif de tokens en temps réel.
- Comparez avec les mots et caractères pour avoir une intuition.
Questions fréquentes
- Qu'est-ce qu'un token ?
- C'est l'unité de base que les modèles de langage utilisent en interne, plus petite qu'un mot mais plus grande qu'un caractère. En anglais, un token correspond à environ 4 caractères ou 0,75 mots. Pour d'autres langues, surtout celles avec beaucoup de caractères accentués ou des alphabets non latins, le ratio change et typiquement plus de tokens sont utilisés.
- L'estimation est-elle exacte ?
- Non, elle est approximative. Chaque modèle utilise un schéma de tokenisation différent (BPE, SentencePiece, tiktoken). L'estimation donne un ordre de grandeur et aide à détecter quand vous approchez des limites de contexte. Pour des coûts exacts ou des budgets sensibles, utilisez le tokeniseur spécifique du modèle que vous allez utiliser.
- Pourquoi les langues non anglaises utilisent-elles plus de tokens ?
- Les tokeniseurs ont été entraînés sur des corpus majoritairement anglophones. Les caractères moins courants (accents, asiatiques, arabes) sont découpés en plus de tokens, faisant que la même phrase utilise plus de tokens en français ou japonais qu'en anglais. Cela a un impact pratique en coût lors de l'utilisation d'APIs facturées au token.