Sobre esta herramienta
Estima la cantidad de tokens en un texto, con aproximaciones para los principales modelos de lenguaje actuales. Útil para predecir coste y límites cuando trabajas con modelos de IA por API, dimensionar prompts antes de enviarlos, comparar la verbosidad de diferentes formulaciones, o simplemente entender la relación entre palabras y tokens.
Cómo usar
- Pega el texto en la caja.
- Mira la cuenta aproximada de tokens en tiempo real.
- Compara con palabras y caracteres para tener intuición.
Preguntas frecuentes
- ¿Qué es un token?
- Es la unidad básica que los modelos de lenguaje usan internamente, más pequeña que una palabra pero más grande que un carácter. En inglés, un token equivale a unos 4 caracteres o 0.75 palabras. Para otros idiomas, especialmente los que tienen muchos caracteres acentuados o alfabetos no latinos, la relación cambia y normalmente se usan más tokens.
- ¿La estimación es exacta?
- No, es aproximada. Cada modelo usa un esquema de tokenización diferente (BPE, SentencePiece, tiktoken). La estimación sirve para tener orden de magnitud y detectar cuándo te acercas a límites de contexto. Para costes exactos o presupuestos sensibles, usa el tokenizador específico del modelo que vayas a utilizar.
- ¿Por qué los idiomas no ingleses usan más tokens?
- Los tokenizadores se entrenaron con corpus mayoritariamente en inglés. Las letras menos comunes (acentos, caracteres asiáticos, árabes) se parten en más tokens, haciendo que la misma frase use más tokens en español o japonés que en inglés. Esto tiene impacto práctico de coste al usar APIs cobradas por token.