Token, Kontextfenster, Modellgrößen: KI-Begriffe einfach erklärt

„Unser Modell hat 70 Milliarden Parameter und ein Kontextfenster von 128.000 Tokens."

Wenn Sie bei diesem Satz nur Bahnhof verstehen, sind Sie nicht allein. Hier kommen die wichtigsten Begriffe rund um Sprachmodelle – ohne Formeln, dafür mit Beispielen aus unserem eigenen Betrieb.

Was sind Tokens?

Der Satz „Hallo, wie geht es Ihnen heute?" besteht für ein Sprachmodell nicht aus Wörtern, sondern aus Tokens. Ein Token ist weder ein Wort noch ein Zeichen, sondern eine Verarbeitungseinheit, die das Modell beim Training festgelegt hat. Häufige kurze Wörter ergeben oft ein einziges Token, seltene Begriffe und Fremdwörter werden in mehrere zerlegt.

Text	Ungefähre Token-Anzahl
Hallo	1–2
DasDomainDepot	3–4
Symfony 7.4	3–4
Ein vollständiger Satz	ca. 15–25

Als Faustregel gilt: 100 deutsche Wörter entsprechen ungefähr 130–160 Tokens. Deutsch ist dabei kein Zufall. Die meisten Modelle sind überwiegend auf Englisch trainiert, deutsche Texte zerfallen deshalb in mehr Tokens als englische mit gleichem Inhalt. Wer Cloud-Kosten kalkuliert, sollte diesen Sprachaufschlag einrechnen.

Warum rechnen Anbieter in Tokens ab?

Weil Tokens die natürliche Verarbeitungseinheit der Modelle sind – so wie ein Stromzähler in Kilowattstunden misst. Berechnet werden Eingabe und Ausgabe, wobei Ausgabe-Tokens bei den meisten Anbietern deutlich teurer sind. Eine lange, ausführliche Antwort schlägt also überproportional auf die Rechnung.

Genau daraus entsteht ein Planungsproblem: Mitarbeiter A nutzt KI zehn Minuten am Tag für kurze Zusammenfassungen, Mitarbeiterin B arbeitet sechs Stunden mit langen Dokumenten. Der Verbrauch unterscheidet sich schnell um den Faktor 20. Die Monatsrechnung ist kaum vorhersehbar – und am höchsten genau dann, wenn die Nutzung am wertvollsten wäre.

Wann sich eine eigene KI-Infrastruktur mit planbaren Kosten lohnt, zeigen wir im Artikel 500 Bilder ohne Tokenkosten.

Was ist das Kontextfenster?

Das Kontextfenster ist der „Arbeitsspeicher" eines Sprachmodells: so viele Tokens kann es in einer einzelnen Anfrage gleichzeitig verarbeiten. Wichtig dabei: Eingabe und Antwort teilen sich dieses Fenster. Ist es voll, bricht die Antwort schlimmstenfalls mitten im Satz ab.

Kontextfenster	Was passt hinein?
8.000 Tokens	Ein kurzes Dokument oder eine längere Unterhaltung
32.000 Tokens	Ein längeres PDF oder mehrere Seiten Text
128.000 Tokens	Mehrere Dokumente gleichzeitig
1.000.000+ Tokens	Ganze Wissensdatenbanken oder Codebases

Alles außerhalb des Fensters „sieht" das Modell nicht – und kann es auch nicht berücksichtigen.

Aus unserer Praxis: Das beworbene Kontextfenster ist nicht automatisch das, was im Betrieb läuft. Llama 3.1 kann auf dem Papier 128.000 Tokens – gängige Server-Software wie Ollama startet dasselbe Modell standardmäßig mit 4.096 und schneidet alles darüber stillschweigend ab, ohne Fehlermeldung. Für unsere nächtliche Analyse der Server-Logs haben wir deshalb eine eigene Variante mit 16.000 Tokens eingerichtet. Mehr wäre möglich, kostet aber pro Anfrage spürbar Arbeitsspeicher. 16.000 reichen für unsere Log-Mengen.

Bedeutet mehr Kontext bessere Antworten?

Nein. Modelle mit großem Fenster können zwar mehr Text aufnehmen, berücksichtigen aber nicht alle Inhalte gleich gut. Studien zeigen: Informationen am Anfang und am Ende eines langen Kontexts werden zuverlässiger verarbeitet als die in der Mitte – das sogenannte „Lost in the Middle"-Problem. Ein kleineres Fenster mit präzise ausgewählten Informationen liefert deshalb oft bessere Ergebnisse als ein riesiges voller unsortiertem Text.

Was bedeutet 8B, 32B oder 70B?

Die Zahl hinter dem Modellnamen (z.B. Llama 3.1 70B) steht für die Anzahl der Parameter in Milliarden – „B" für Billion. Parameter sind, grob vereinfacht, die gelernten Erfahrungen eines Modells aus dem Training. Mehr Parameter bedeuten mehr Kapazität für komplexe Aufgaben, aber auch mehr Hardware.

Modellgröße	Typische Fähigkeiten
7–8B	Einfache Aufgaben, schnelle Antworten
14–32B	Sehr guter Allrounder
70B	Expertenniveau bei vielen Aufgaben
400B+	Spitzenmodelle (z.B. GPT-4-Klasse)

Größer ist dabei nicht automatisch besser. Modelle wie DeepSeek R1, Qwen 3 oder Gemma 3 zeigen, dass ein gut trainiertes 32B-Modell bei vielen Aufgaben mit deutlich größeren Modellen mithält. Oft reicht sogar weniger: Unsere nächtliche Log-Analyse aus dem Kontextfenster-Beispiel läuft seit Monaten zuverlässig auf einem 8B-Modell. Für eine so eng umrissene Aufgabe braucht es kein 70B-Modell. Entscheidend ist die Passung zwischen Aufgabe und Modell, nicht die größtmögliche Zahl.

Wie viel Hardware braucht ein Modell?

Die entscheidende Kenngröße ist der VRAM (Grafikkartenspeicher).

Modell	VRAM-Bedarf	Beispiel-Grafikkarte
8B	~8–12 GB	RTX 4070, RX 7800 XT
32B	~20–24 GB	RTX 4090, RX 7900 XTX
70B	~48 GB+	Mehrere Karten nötig

Auf unserer Testhardware (AMD RX 7900 XTX, 24 GB VRAM) laufen 32B-Modelle dank Quantisierung flüssig. Dabei wird die Rechengenauigkeit der gespeicherten Parameter reduziert: Ein 8B-Modell schrumpft in 4-Bit-Quantisierung von rund 16 GB auf etwa 5 GB – im Alltag haben wir dadurch keinen spürbaren Qualitätsverlust festgestellt. Wie sich das bei Bildmodellen verhält, zeigen wir im Artikel KI-Bilder im Praxistest.

Wer diese Hardware einmal lokal aufbaut, entgeht damit dauerhaft der oben beschriebenen Tokenkosten-Falle.

Fazit

Wer Token, Kontextfenster und Modellgröße einordnen kann, bewertet KI-Angebote deutlich sicherer – und erkennt schneller, ob ein Modell zum eigenen Anwendungsfall passt.

Wie Unternehmen ihre eigenen Daten mit KI nutzbar machen, ohne ein Modell zu trainieren, zeigen wir im Artikel RAG-Systeme: Unternehmenswissen per KI nutzen. Dort geht es darum, wie genau dieses Kontextfenster gezielt mit dem passenden Firmenwissen gefüllt wird.

Was sind Token, Kontextfenster und Modellgrößen? KI-Begriffe einfach erklärt

„Unser Modell hat 70 Milliarden Parameter und ein Kontextfenster von 128.000 Tokens."

Was sind Tokens?

Warum rechnen Anbieter in Tokens ab?

Was ist das Kontextfenster?

Bedeutet mehr Kontext bessere Antworten?

Was bedeutet 8B, 32B oder 70B?

Wie viel Hardware braucht ein Modell?

Fazit

Was hier beschrieben ist,
lässt sich umsetzen.

Kommentare

Kommentar schreiben

Was sind Token, Kontextfenster und Modellgrößen? KI-Begriffe einfach erklärt

„Unser Modell hat 70 Milliarden Parameter und ein Kontextfenster von 128.000 Tokens."

Was sind Tokens?

Warum rechnen Anbieter in Tokens ab?

Was ist das Kontextfenster?

Bedeutet mehr Kontext bessere Antworten?

Was bedeutet 8B, 32B oder 70B?

Wie viel Hardware braucht ein Modell?

Fazit

Was hier beschrieben ist,lässt sich umsetzen.

Kommentare

Kommentar schreiben

Was hier beschrieben ist,
lässt sich umsetzen.