Testo

Incolla testo sopra per vedere la stima

Come funziona

Dividiamo il testo con una regex che imita la pre-tokenizzazione BPE (Byte-Pair Encoding) degli LLM moderni: contrazioni, sequenze di lettere, cifre, simboli e spazi sono segmenti indipendenti. I caratteri latini ASCII vengono aggregati e convertiti a ~4 caratteri per token (regola di OpenAI). Cifre: ~3 per token. Lettere accentate, cirillico, arabo e altri script non latini: ~1,5 caratteri per token. Ideogrammi CJK e giapponese/coreano: ~1 token per carattere. Gli spazi singoli prima di una parola vengono assorbiti (come nel BPE); solo gli spazi multipli o gli a capo aggiungono un token. Il risultato è una stima generica rappresentativa di qualsiasi modello moderno, dato che i loro tokenizer divergono di meno del ~10% su testo tipico.

Strumenti correlati

Sviluppatore/Formattatore JSON Sviluppatore/Generatore di UUID Sviluppatore/Qual è il Mio IP Sviluppatore/Testo in Slug Sviluppatore/Generatore Lorem Ipsum Sviluppatore/Codificatore / Decodificatore Base64 Sviluppatore/Tester Regex Sviluppatore/Visualizzatore JSON Sviluppatore/Visualizzatore XML

Stimatore di Token

Strumenti correlati