Dividiamo il testo con una regex che imita la pre-tokenizzazione BPE (Byte-Pair Encoding) degli LLM moderni: contrazioni, sequenze di lettere, cifre, simboli e spazi sono segmenti indipendenti. I caratteri latini ASCII vengono aggregati e convertiti a ~4 caratteri per token (regola di OpenAI). Cifre: ~3 per token. Lettere accentate, cirillico, arabo e altri script non latini: ~1,5 caratteri per token. Ideogrammi CJK e giapponese/coreano: ~1 token per carattere. Gli spazi singoli prima di una parola vengono assorbiti (come nel BPE); solo gli spazi multipli o gli a capo aggiungono un token. Il risultato è una stima generica rappresentativa di qualsiasi modello moderno, dato che i loro tokenizer divergono di meno del ~10% su testo tipico.