Über dieses Werkzeug
Schätzt die Token-Anzahl in einem Text, mit Näherungen für die wichtigsten aktuellen Sprachmodelle. Praktisch zur Vorhersage von Kosten und Grenzen bei der Arbeit mit KI-Modellen über API, zur Dimensionierung von Prompts vor dem Senden, zum Vergleich der Wortfülle verschiedener Formulierungen oder einfach zum Verständnis der Beziehung zwischen Wörtern und Tokens.
Anleitung
- Füge den Text in das Feld ein.
- Sieh die ungefähre Token-Anzahl in Echtzeit.
- Vergleiche mit Wörtern und Zeichen, um ein Gefühl dafür zu bekommen.
Häufig gestellte Fragen
- Was ist ein Token?
- Es ist die Grundeinheit, die Sprachmodelle intern verwenden, kleiner als ein Wort, aber größer als ein Zeichen. Auf Englisch entspricht ein Token etwa 4 Zeichen oder 0,75 Wörtern. Für andere Sprachen, besonders solche mit vielen akzentuierten Zeichen oder nicht-lateinischen Alphabeten, ändert sich das Verhältnis und es werden typischerweise mehr Tokens verwendet.
- Ist die Schätzung exakt?
- Nein, sie ist näherungsweise. Jedes Modell verwendet ein anderes Tokenisierungsschema (BPE, SentencePiece, tiktoken). Die Schätzung gibt eine Größenordnung und hilft zu erkennen, wann du dich Kontextgrenzen näherst. Für exakte Kosten oder sensible Budgets verwende den spezifischen Tokenizer des Modells, mit dem du arbeiten wirst.
- Warum verwenden nicht-englische Sprachen mehr Tokens?
- Tokenisierer wurden überwiegend mit englischen Korpora trainiert. Weniger gängige Zeichen (Akzente, asiatische, arabische) werden in mehr Tokens aufgeteilt, sodass derselbe Satz auf Deutsch oder Japanisch mehr Tokens verbraucht als auf Englisch. Das hat praktische Kostenfolgen bei der Nutzung von APIs, die pro Token abrechnen.