MaisTools
Sviluppatore/

Stimatore di Token

Stima il numero di token del tuo testo per qualsiasi modello linguistico moderno.

Testo
Incolla testo sopra per vedere la stima
Come funziona

Dividiamo il testo con una regex che imita la pre-tokenizzazione BPE (Byte-Pair Encoding) degli LLM moderni: contrazioni, sequenze di lettere, cifre, simboli e spazi sono segmenti indipendenti. I caratteri latini ASCII vengono aggregati e convertiti a ~4 caratteri per token (regola di OpenAI). Cifre: ~3 per token. Lettere accentate, cirillico, arabo e altri script non latini: ~1,5 caratteri per token. Ideogrammi CJK e giapponese/coreano: ~1 token per carattere. Gli spazi singoli prima di una parola vengono assorbiti (come nel BPE); solo gli spazi multipli o gli a capo aggiungono un token. Il risultato è una stima generica rappresentativa di qualsiasi modello moderno, dato che i loro tokenizer divergono di meno del ~10% su testo tipico.

Informazioni su questo strumento

Stima la quantità di token in un testo, con approssimazioni per i principali modelli di linguaggio attuali. Utile per prevedere costo e limiti quando lavori con modelli di IA tramite API, dimensionare prompt prima di inviarli, confrontare la verbosità di diverse formulazioni, o semplicemente capire la relazione tra parole e token.

Come si usa

  1. Incolla il testo nella casella.
  2. Vedi il conteggio approssimativo di token in tempo reale.
  3. Confronta con parole e caratteri per farti un'idea.

Domande frequenti

Cos'è un token?
È l'unità di base che i modelli di linguaggio usano internamente, più piccola di una parola ma più grande di un carattere. In inglese, un token corrisponde a circa 4 caratteri o 0.75 parole. Per altre lingue, specialmente quelle con molti caratteri accentati o alfabeti non latini, il rapporto cambia e tipicamente vengono usati più token.
La stima è esatta?
No, è approssimativa. Ogni modello usa uno schema di tokenizzazione diverso (BPE, SentencePiece, tiktoken). La stima dà un ordine di grandezza e aiuta a rilevare quando ti avvicini ai limiti di contesto. Per costi esatti o budget sensibili, usa il tokenizer specifico del modello che userai.
Perché le lingue non inglesi usano più token?
I tokenizer sono stati addestrati principalmente su corpus in inglese. I caratteri meno comuni (accenti, asiatici, arabi) vengono divisi in più token, facendo sì che la stessa frase usi più token in italiano o giapponese che in inglese. Questo ha un impatto pratico sul costo quando si usano API addebitate per token.