MaisTools
Développeur/

Estimateur de Tokens

Estimez le nombre de tokens de votre texte pour n'importe quel modèle de langage moderne.

Texte
Collez du texte ci-dessus pour voir l'estimation
Comment ça fonctionne

Nous découpons le texte avec une regex imitant la pré-tokenisation BPE (Byte-Pair Encoding) des LLM modernes : contractions, séquences de lettres, chiffres, symboles et espaces sont des segments indépendants. Les caractères latins ASCII sont agrégés et convertis à ~4 caractères par token (règle d'OpenAI). Chiffres : ~3 par token. Lettres accentuées, cyrillique, arabe et autres scripts non latins : ~1,5 caractère par token. Idéogrammes CJK et japonais/coréen : ~1 token par caractère. Les espaces simples avant un mot sont absorbés (comme en BPE) ; seuls les espaces multiples ou les sauts de ligne ajoutent un token. Le résultat est une estimation générique représentative de n'importe quel modèle moderne, leurs tokeniseurs divergeant de moins de ~10% sur du texte typique.

À propos de cet outil

Estime la quantité de tokens dans un texte, avec des approximations pour les principaux modèles de langage actuels. Utile pour prédire le coût et les limites lors de l'utilisation de modèles d'IA via API, dimensionner des prompts avant de les envoyer, comparer la verbosité de différentes formulations, ou simplement comprendre la relation entre mots et tokens.

Comment l'utiliser

  1. Collez le texte dans la zone.
  2. Voyez le décompte approximatif de tokens en temps réel.
  3. Comparez avec les mots et caractères pour avoir une intuition.

Questions fréquentes

Qu'est-ce qu'un token ?
C'est l'unité de base que les modèles de langage utilisent en interne, plus petite qu'un mot mais plus grande qu'un caractère. En anglais, un token correspond à environ 4 caractères ou 0,75 mots. Pour d'autres langues, surtout celles avec beaucoup de caractères accentués ou des alphabets non latins, le ratio change et typiquement plus de tokens sont utilisés.
L'estimation est-elle exacte ?
Non, elle est approximative. Chaque modèle utilise un schéma de tokenisation différent (BPE, SentencePiece, tiktoken). L'estimation donne un ordre de grandeur et aide à détecter quand vous approchez des limites de contexte. Pour des coûts exacts ou des budgets sensibles, utilisez le tokeniseur spécifique du modèle que vous allez utiliser.
Pourquoi les langues non anglaises utilisent-elles plus de tokens ?
Les tokeniseurs ont été entraînés sur des corpus majoritairement anglophones. Les caractères moins courants (accents, asiatiques, arabes) sont découpés en plus de tokens, faisant que la même phrase utilise plus de tokens en français ou japonais qu'en anglais. Cela a un impact pratique en coût lors de l'utilisation d'APIs facturées au token.