MaisTools
Desarrollador/

Estimador de Tokens

Estima el número de tokens de tu texto para cualquier modelo de lenguaje moderno.

Texto
Pega texto arriba para ver la estimación
Cómo funciona

Dividimos el texto con una regex que imita la pre-tokenización BPE (Byte-Pair Encoding) de los LLM modernos: contracciones, secuencias de letras, dígitos, símbolos y espacios son segmentos independientes. Los caracteres latinos ASCII se agregan y convierten a ~4 chars por token (regla de OpenAI). Dígitos: ~3 por token. Letras acentuadas, cirílico, árabe y otros scripts no-latinos: ~1,5 chars por token. Ideogramas CJK y japonés/coreano: ~1 token por carácter. Los espacios simples antes de palabras se absorben (como en BPE); solo espacios múltiples o saltos de línea cuentan como token extra. El resultado es una estimación genérica representativa de cualquier modelo moderno, ya que sus tokenizadores difieren menos de ~10% en texto típico.

Sobre esta herramienta

Estima la cantidad de tokens en un texto, con aproximaciones para los principales modelos de lenguaje actuales. Útil para predecir coste y límites cuando trabajas con modelos de IA por API, dimensionar prompts antes de enviarlos, comparar la verbosidad de diferentes formulaciones, o simplemente entender la relación entre palabras y tokens.

Cómo usar

  1. Pega el texto en la caja.
  2. Mira la cuenta aproximada de tokens en tiempo real.
  3. Compara con palabras y caracteres para tener intuición.

Preguntas frecuentes

¿Qué es un token?
Es la unidad básica que los modelos de lenguaje usan internamente, más pequeña que una palabra pero más grande que un carácter. En inglés, un token equivale a unos 4 caracteres o 0.75 palabras. Para otros idiomas, especialmente los que tienen muchos caracteres acentuados o alfabetos no latinos, la relación cambia y normalmente se usan más tokens.
¿La estimación es exacta?
No, es aproximada. Cada modelo usa un esquema de tokenización diferente (BPE, SentencePiece, tiktoken). La estimación sirve para tener orden de magnitud y detectar cuándo te acercas a límites de contexto. Para costes exactos o presupuestos sensibles, usa el tokenizador específico del modelo que vayas a utilizar.
¿Por qué los idiomas no ingleses usan más tokens?
Los tokenizadores se entrenaron con corpus mayoritariamente en inglés. Las letras menos comunes (acentos, caracteres asiáticos, árabes) se parten en más tokens, haciendo que la misma frase use más tokens en español o japonés que en inglés. Esto tiene impacto práctico de coste al usar APIs cobradas por token.