Sobre esta ferramenta
Estima a quantidade de tokens num texto, com aproximações para os principais modelos de linguagem actuais. Útil para prever o custo e os limites quando trabalhas com modelos de IA por API, dimensionar prompts antes de os enviar, comparar a verbosidade de diferentes formulações, ou simplesmente perceber qual é a relação entre palavras e tokens.
Como usar
- Cola o texto na caixa.
- Vê a contagem aproximada de tokens em tempo real.
- Compara com palavras e caracteres para ter intuição.
Perguntas frequentes
- O que é um token?
- É a unidade básica que os modelos de linguagem usam internamente, mais pequena que uma palavra mas maior que um carácter. Em inglês, um token corresponde a cerca de 4 caracteres ou 0.75 palavras. Para outras línguas, especialmente as que têm muitos caracteres acentuados ou alfabetos não latinos, a relação muda e tipicamente mais tokens são usados.
- A estimativa é exacta?
- Não, é aproximada. Cada modelo usa um esquema de tokenização diferente (BPE, SentencePiece, tiktoken). A estimativa serve para teres ordem de grandeza e detectar quando estás a aproximar-te de limites de contexto. Para custos exactos ou orçamentos sensíveis, usa o tokenizador específico do modelo que vais utilizar.
- Porque é que línguas não inglesas usam mais tokens?
- Os tokenizadores foram treinados em corpora maioritariamente em inglês. Letras menos comuns (como acentos, caracteres asiáticos, árabes) são partidas em mais tokens, fazendo com que a mesma frase em português ou japonês use mais tokens que em inglês. Isto tem custo prático ao usar APIs cobradas por token.