MaisTools
Desenvolvedor/

Estimador de Tokens

Estima o número de tokens do teu texto para qualquer modelo de linguagem moderno.

Texto
Cola texto acima para ver a estimativa
Como funciona

Dividimos o texto com uma regex que imita a pré-tokenização BPE (Byte-Pair Encoding) dos LLMs modernos: contrações, sequências de letras, dígitos, símbolos e espaços são segmentos independentes. Caracteres latinos ASCII são agregados e convertidos a ~4 chars por token (regra da OpenAI). Dígitos: ~3 por token. Letras acentuadas, cirílico, árabe e outros scripts não-latinos: ~1,5 chars por token. Ideogramas CJK e japonês/coreano: ~1 token por caracter. Espaços simples antes de palavras são absorvidos (como no BPE); só espaços múltiplos ou quebras de linha contam como token extra. O resultado é uma estimativa genérica representativa de qualquer modelo moderno, já que os seus tokenizadores diferem menos de ~10% em texto típico.

Sobre esta ferramenta

Estima a quantidade de tokens num texto, com aproximações para os principais modelos de linguagem actuais. Útil para prever o custo e os limites quando trabalhas com modelos de IA por API, dimensionar prompts antes de os enviar, comparar a verbosidade de diferentes formulações, ou simplesmente perceber qual é a relação entre palavras e tokens.

Como usar

  1. Cola o texto na caixa.
  2. Vê a contagem aproximada de tokens em tempo real.
  3. Compara com palavras e caracteres para ter intuição.

Perguntas frequentes

O que é um token?
É a unidade básica que os modelos de linguagem usam internamente, mais pequena que uma palavra mas maior que um carácter. Em inglês, um token corresponde a cerca de 4 caracteres ou 0.75 palavras. Para outras línguas, especialmente as que têm muitos caracteres acentuados ou alfabetos não latinos, a relação muda e tipicamente mais tokens são usados.
A estimativa é exacta?
Não, é aproximada. Cada modelo usa um esquema de tokenização diferente (BPE, SentencePiece, tiktoken). A estimativa serve para teres ordem de grandeza e detectar quando estás a aproximar-te de limites de contexto. Para custos exactos ou orçamentos sensíveis, usa o tokenizador específico do modelo que vais utilizar.
Porque é que línguas não inglesas usam mais tokens?
Os tokenizadores foram treinados em corpora maioritariamente em inglês. Letras menos comuns (como acentos, caracteres asiáticos, árabes) são partidas em mais tokens, fazendo com que a mesma frase em português ou japonês use mais tokens que em inglês. Isto tem custo prático ao usar APIs cobradas por token.