MaisTools
Développeur/

Estimateur de Tokens

Estimez le nombre de tokens de votre texte pour n'importe quel modèle de langage moderne.

Texte
Collez du texte ci-dessus pour voir l'estimation
Comment ça fonctionne

Nous découpons le texte avec une regex imitant la pré-tokenisation BPE (Byte-Pair Encoding) des LLM modernes : contractions, séquences de lettres, chiffres, symboles et espaces sont des segments indépendants. Les caractères latins ASCII sont agrégés et convertis à ~4 caractères par token (règle d'OpenAI). Chiffres : ~3 par token. Lettres accentuées, cyrillique, arabe et autres scripts non latins : ~1,5 caractère par token. Idéogrammes CJK et japonais/coréen : ~1 token par caractère. Les espaces simples avant un mot sont absorbés (comme en BPE) ; seuls les espaces multiples ou les sauts de ligne ajoutent un token. Le résultat est une estimation générique représentative de n'importe quel modèle moderne, leurs tokeniseurs divergeant de moins de ~10% sur du texte typique.