Wir teilen den Text mit einer Regex, die die BPE-Vortokenisierung (Byte-Pair Encoding) moderner LLMs nachahmt: Kontraktionen, Buchstabenfolgen, Ziffernfolgen, Symbole und Leerzeichen werden als separate Segmente behandelt. ASCII-lateinische Zeichen werden aggregiert und mit ~4 Zeichen pro Token umgerechnet (OpenAI-Faustregel). Ziffern: ~3 pro Token. Akzentuierte Buchstaben, Kyrillisch, Arabisch und andere nicht-lateinische Schriften: ~1,5 Zeichen pro Token. CJK-Ideogramme und Japanisch/Koreanisch: ~1 Token pro Zeichen. Einzelne Leerzeichen vor einem Wort werden absorbiert (wie bei BPE); nur längere Leerzeichenfolgen oder Zeilenumbrüche zählen extra. Das Ergebnis ist eine generische Schätzung, die für jedes moderne Modell repräsentativ ist, da deren Tokenizer bei typischem Text um weniger als ~10% abweichen.