Qu'est-ce qu'un token ?

C'est l'unité de base que les modèles de langage utilisent en interne, plus petite qu'un mot mais plus grande qu'un caractère. En anglais, un token correspond à environ 4 caractères ou 0,75 mots. Pour d'autres langues, surtout celles avec beaucoup de caractères accentués ou des alphabets non latins, le ratio change et typiquement plus de tokens sont utilisés.

L'estimation est-elle exacte ?

Non, elle est approximative. Chaque modèle utilise un schéma de tokenisation différent (BPE, SentencePiece, tiktoken). L'estimation donne un ordre de grandeur et aide à détecter quand vous approchez des limites de contexte. Pour des coûts exacts ou des budgets sensibles, utilisez le tokeniseur spécifique du modèle que vous allez utiliser.

Pourquoi les langues non anglaises utilisent-elles plus de tokens ?

Les tokeniseurs ont été entraînés sur des corpus majoritairement anglophones. Les caractères moins courants (accents, asiatiques, arabes) sont découpés en plus de tokens, faisant que la même phrase utilise plus de tokens en français ou japonais qu'en anglais. Cela a un impact pratique en coût lors de l'utilisation d'APIs facturées au token.

Estimateur de Tokens Gratuit - Compter les Tokens LLM en Ligne

Texte

Collez du texte ci-dessus pour voir l'estimation

Comment ça fonctionne

Nous découpons le texte avec une regex imitant la pré-tokenisation BPE (Byte-Pair Encoding) des LLM modernes : contractions, séquences de lettres, chiffres, symboles et espaces sont des segments indépendants. Les caractères latins ASCII sont agrégés et convertis à ~4 caractères par token (règle d'OpenAI). Chiffres : ~3 par token. Lettres accentuées, cyrillique, arabe et autres scripts non latins : ~1,5 caractère par token. Idéogrammes CJK et japonais/coréen : ~1 token par caractère. Les espaces simples avant un mot sont absorbés (comme en BPE) ; seuls les espaces multiples ou les sauts de ligne ajoutent un token. Le résultat est une estimation générique représentative de n'importe quel modèle moderne, leurs tokeniseurs divergeant de moins de ~10% sur du texte typique.

À propos de cet outil

Estime la quantité de tokens dans un texte, avec des approximations pour les principaux modèles de langage actuels. Utile pour prédire le coût et les limites lors de l'utilisation de modèles d'IA via API, dimensionner des prompts avant de les envoyer, comparer la verbosité de différentes formulations, ou simplement comprendre la relation entre mots et tokens.

Comment l'utiliser

Collez le texte dans la zone.
Voyez le décompte approximatif de tokens en temps réel.
Comparez avec les mots et caractères pour avoir une intuition.

Questions fréquentes

Qu'est-ce qu'un token ?: C'est l'unité de base que les modèles de langage utilisent en interne, plus petite qu'un mot mais plus grande qu'un caractère. En anglais, un token correspond à environ 4 caractères ou 0,75 mots. Pour d'autres langues, surtout celles avec beaucoup de caractères accentués ou des alphabets non latins, le ratio change et typiquement plus de tokens sont utilisés.
L'estimation est-elle exacte ?: Non, elle est approximative. Chaque modèle utilise un schéma de tokenisation différent (BPE, SentencePiece, tiktoken). L'estimation donne un ordre de grandeur et aide à détecter quand vous approchez des limites de contexte. Pour des coûts exacts ou des budgets sensibles, utilisez le tokeniseur spécifique du modèle que vous allez utiliser.
Pourquoi les langues non anglaises utilisent-elles plus de tokens ?: Les tokeniseurs ont été entraînés sur des corpus majoritairement anglophones. Les caractères moins courants (accents, asiatiques, arabes) sont découpés en plus de tokens, faisant que la même phrase utilise plus de tokens en français ou japonais qu'en anglais. Cela a un impact pratique en coût lors de l'utilisation d'APIs facturées au token.

Outils associés

Développeur/Formateur JSON Développeur/Générateur d'UUID Développeur/Quelle est Mon IP Développeur/Texte en Slug Développeur/Générateur Lorem Ipsum Développeur/Encodeur / Décodeur Base64 Développeur/Testeur de Regex Développeur/Visualiseur JSON Développeur/Visualiseur XML Développeur/Générateur de Blocs de Commentaires Développeur/Convertisseur de Timestamp Unix Développeur/Décodeur JWT Développeur/Convertisseur JSON, YAML, CSV Développeur/Visualiseur et Éditeur CSV Développeur/Visualiseur et Éditeur YAML Développeur/Visualiseur d'Algorithmes de Tri