Informazioni su questo strumento
Stima la quantità di token in un testo, con approssimazioni per i principali modelli di linguaggio attuali. Utile per prevedere costo e limiti quando lavori con modelli di IA tramite API, dimensionare prompt prima di inviarli, confrontare la verbosità di diverse formulazioni, o semplicemente capire la relazione tra parole e token.
Come si usa
- Incolla il testo nella casella.
- Vedi il conteggio approssimativo di token in tempo reale.
- Confronta con parole e caratteri per farti un'idea.
Domande frequenti
- Cos'è un token?
- È l'unità di base che i modelli di linguaggio usano internamente, più piccola di una parola ma più grande di un carattere. In inglese, un token corrisponde a circa 4 caratteri o 0.75 parole. Per altre lingue, specialmente quelle con molti caratteri accentati o alfabeti non latini, il rapporto cambia e tipicamente vengono usati più token.
- La stima è esatta?
- No, è approssimativa. Ogni modello usa uno schema di tokenizzazione diverso (BPE, SentencePiece, tiktoken). La stima dà un ordine di grandezza e aiuta a rilevare quando ti avvicini ai limiti di contesto. Per costi esatti o budget sensibili, usa il tokenizer specifico del modello che userai.
- Perché le lingue non inglesi usano più token?
- I tokenizer sono stati addestrati principalmente su corpus in inglese. I caratteri meno comuni (accenti, asiatici, arabi) vengono divisi in più token, facendo sì che la stessa frase usi più token in italiano o giapponese che in inglese. Questo ha un impatto pratico sul costo quando si usano API addebitate per token.