MaisTools
Sviluppatore/

Stimatore di Token

Stima il numero di token del tuo testo per qualsiasi modello linguistico moderno.

Testo
Incolla testo sopra per vedere la stima
Come funziona

Dividiamo il testo con una regex che imita la pre-tokenizzazione BPE (Byte-Pair Encoding) degli LLM moderni: contrazioni, sequenze di lettere, cifre, simboli e spazi sono segmenti indipendenti. I caratteri latini ASCII vengono aggregati e convertiti a ~4 caratteri per token (regola di OpenAI). Cifre: ~3 per token. Lettere accentate, cirillico, arabo e altri script non latini: ~1,5 caratteri per token. Ideogrammi CJK e giapponese/coreano: ~1 token per carattere. Gli spazi singoli prima di una parola vengono assorbiti (come nel BPE); solo gli spazi multipli o gli a capo aggiungono un token. Il risultato è una stima generica rappresentativa di qualsiasi modello moderno, dato che i loro tokenizer divergono di meno del ~10% su testo tipico.