MaisTools
Entwickler/

Token-Schätzer

Schätze die Token-Anzahl deines Textes für jedes moderne Sprachmodell.

Text
Text oben einfügen um die Schätzung zu sehen
Funktionsweise

Wir teilen den Text mit einer Regex, die die BPE-Vortokenisierung (Byte-Pair Encoding) moderner LLMs nachahmt: Kontraktionen, Buchstabenfolgen, Ziffernfolgen, Symbole und Leerzeichen werden als separate Segmente behandelt. ASCII-lateinische Zeichen werden aggregiert und mit ~4 Zeichen pro Token umgerechnet (OpenAI-Faustregel). Ziffern: ~3 pro Token. Akzentuierte Buchstaben, Kyrillisch, Arabisch und andere nicht-lateinische Schriften: ~1,5 Zeichen pro Token. CJK-Ideogramme und Japanisch/Koreanisch: ~1 Token pro Zeichen. Einzelne Leerzeichen vor einem Wort werden absorbiert (wie bei BPE); nur längere Leerzeichenfolgen oder Zeilenumbrüche zählen extra. Das Ergebnis ist eine generische Schätzung, die für jedes moderne Modell repräsentativ ist, da deren Tokenizer bei typischem Text um weniger als ~10% abweichen.

Über dieses Werkzeug

Schätzt die Token-Anzahl in einem Text, mit Näherungen für die wichtigsten aktuellen Sprachmodelle. Praktisch zur Vorhersage von Kosten und Grenzen bei der Arbeit mit KI-Modellen über API, zur Dimensionierung von Prompts vor dem Senden, zum Vergleich der Wortfülle verschiedener Formulierungen oder einfach zum Verständnis der Beziehung zwischen Wörtern und Tokens.

Anleitung

  1. Füge den Text in das Feld ein.
  2. Sieh die ungefähre Token-Anzahl in Echtzeit.
  3. Vergleiche mit Wörtern und Zeichen, um ein Gefühl dafür zu bekommen.

Häufig gestellte Fragen

Was ist ein Token?
Es ist die Grundeinheit, die Sprachmodelle intern verwenden, kleiner als ein Wort, aber größer als ein Zeichen. Auf Englisch entspricht ein Token etwa 4 Zeichen oder 0,75 Wörtern. Für andere Sprachen, besonders solche mit vielen akzentuierten Zeichen oder nicht-lateinischen Alphabeten, ändert sich das Verhältnis und es werden typischerweise mehr Tokens verwendet.
Ist die Schätzung exakt?
Nein, sie ist näherungsweise. Jedes Modell verwendet ein anderes Tokenisierungsschema (BPE, SentencePiece, tiktoken). Die Schätzung gibt eine Größenordnung und hilft zu erkennen, wann du dich Kontextgrenzen näherst. Für exakte Kosten oder sensible Budgets verwende den spezifischen Tokenizer des Modells, mit dem du arbeiten wirst.
Warum verwenden nicht-englische Sprachen mehr Tokens?
Tokenisierer wurden überwiegend mit englischen Korpora trainiert. Weniger gängige Zeichen (Akzente, asiatische, arabische) werden in mehr Tokens aufgeteilt, sodass derselbe Satz auf Deutsch oder Japanisch mehr Tokens verbraucht als auf Englisch. Das hat praktische Kostenfolgen bei der Nutzung von APIs, die pro Token abrechnen.