70B, 128k Tokens, Kontextfenster – was bedeutet das wirklich? Die wichtigsten KI-Begriffe für Entscheider, Projektleiter und IT-Verantwortliche ohne Formeln erklärt.
Lieber ansehen statt lesen? Der Artikel als Video.
Wenn Sie bei diesem Satz nur Bahnhof verstehen, sind Sie nicht allein. Hier kommen die wichtigsten Begriffe rund um Sprachmodelle – ohne Formeln, dafür mit Beispielen aus unserem eigenen Betrieb.
Der Satz „Hallo, wie geht es Ihnen heute?" besteht für ein Sprachmodell nicht aus Wörtern, sondern aus Tokens. Ein Token ist weder ein Wort noch ein Zeichen, sondern eine Verarbeitungseinheit, die das Modell beim Training festgelegt hat. Häufige kurze Wörter ergeben oft ein einziges Token, seltene Begriffe und Fremdwörter werden in mehrere zerlegt.
| Text | Ungefähre Token-Anzahl |
|---|---|
| Hallo | 1–2 |
| DasDomainDepot | 3–4 |
| Symfony 7.4 | 3–4 |
| Ein vollständiger Satz | ca. 15–25 |
Als Faustregel gilt: 100 deutsche Wörter entsprechen ungefähr 130–160 Tokens. Deutsch ist dabei kein Zufall. Die meisten Modelle sind überwiegend auf Englisch trainiert, deutsche Texte zerfallen deshalb in mehr Tokens als englische mit gleichem Inhalt. Wer Cloud-Kosten kalkuliert, sollte diesen Sprachaufschlag einrechnen.
Weil Tokens die natürliche Verarbeitungseinheit der Modelle sind – so wie ein Stromzähler in Kilowattstunden misst. Berechnet werden Eingabe und Ausgabe, wobei Ausgabe-Tokens bei den meisten Anbietern deutlich teurer sind. Eine lange, ausführliche Antwort schlägt also überproportional auf die Rechnung.
Genau daraus entsteht ein Planungsproblem: Mitarbeiter A nutzt KI zehn Minuten am Tag für kurze Zusammenfassungen, Mitarbeiterin B arbeitet sechs Stunden mit langen Dokumenten. Der Verbrauch unterscheidet sich schnell um den Faktor 20. Die Monatsrechnung ist kaum vorhersehbar – und am höchsten genau dann, wenn die Nutzung am wertvollsten wäre.
Wann sich eine eigene KI-Infrastruktur mit planbaren Kosten lohnt, zeigen wir im Artikel 500 Bilder ohne Tokenkosten.
Das Kontextfenster ist der „Arbeitsspeicher" eines Sprachmodells: so viele Tokens kann es in einer einzelnen Anfrage gleichzeitig verarbeiten. Wichtig dabei: Eingabe und Antwort teilen sich dieses Fenster. Ist es voll, bricht die Antwort schlimmstenfalls mitten im Satz ab.
| Kontextfenster | Was passt hinein? |
|---|---|
| 8.000 Tokens | Ein kurzes Dokument oder eine längere Unterhaltung |
| 32.000 Tokens | Ein längeres PDF oder mehrere Seiten Text |
| 128.000 Tokens | Mehrere Dokumente gleichzeitig |
| 1.000.000+ Tokens | Ganze Wissensdatenbanken oder Codebases |
Alles außerhalb des Fensters „sieht" das Modell nicht – und kann es auch nicht berücksichtigen.
Aus unserer Praxis: Das beworbene Kontextfenster ist nicht automatisch das, was im Betrieb läuft. Llama 3.1 kann auf dem Papier 128.000 Tokens – gängige Server-Software wie Ollama startet dasselbe Modell standardmäßig mit 4.096 und schneidet alles darüber stillschweigend ab, ohne Fehlermeldung. Für unsere nächtliche Analyse der Server-Logs haben wir deshalb eine eigene Variante mit 16.000 Tokens eingerichtet. Mehr wäre möglich, kostet aber pro Anfrage spürbar Arbeitsspeicher. 16.000 reichen für unsere Log-Mengen.
Nein. Modelle mit großem Fenster können zwar mehr Text aufnehmen, berücksichtigen aber nicht alle Inhalte gleich gut. Studien zeigen: Informationen am Anfang und am Ende eines langen Kontexts werden zuverlässiger verarbeitet als die in der Mitte – das sogenannte „Lost in the Middle"-Problem. Ein kleineres Fenster mit präzise ausgewählten Informationen liefert deshalb oft bessere Ergebnisse als ein riesiges voller unsortiertem Text.
Die Zahl hinter dem Modellnamen (z.B. Llama 3.1 70B) steht für die Anzahl der Parameter in Milliarden – „B" für Billion. Parameter sind, grob vereinfacht, die gelernten Erfahrungen eines Modells aus dem Training. Mehr Parameter bedeuten mehr Kapazität für komplexe Aufgaben, aber auch mehr Hardware.
| Modellgröße | Typische Fähigkeiten |
|---|---|
| 7–8B | Einfache Aufgaben, schnelle Antworten |
| 14–32B | Sehr guter Allrounder |
| 70B | Expertenniveau bei vielen Aufgaben |
| 400B+ | Spitzenmodelle (z.B. GPT-4-Klasse) |
Größer ist dabei nicht automatisch besser. Modelle wie DeepSeek R1, Qwen 3 oder Gemma 3 zeigen, dass ein gut trainiertes 32B-Modell bei vielen Aufgaben mit deutlich größeren Modellen mithält. Oft reicht sogar weniger: Unsere nächtliche Log-Analyse aus dem Kontextfenster-Beispiel läuft seit Monaten zuverlässig auf einem 8B-Modell. Für eine so eng umrissene Aufgabe braucht es kein 70B-Modell. Entscheidend ist die Passung zwischen Aufgabe und Modell, nicht die größtmögliche Zahl.
Die entscheidende Kenngröße ist der VRAM (Grafikkartenspeicher).
| Modell | VRAM-Bedarf | Beispiel-Grafikkarte |
|---|---|---|
| 8B | ~8–12 GB | RTX 4070, RX 7800 XT |
| 32B | ~20–24 GB | RTX 4090, RX 7900 XTX |
| 70B | ~48 GB+ | Mehrere Karten nötig |
Auf unserer Testhardware (AMD RX 7900 XTX, 24 GB VRAM) laufen 32B-Modelle dank Quantisierung flüssig. Dabei wird die Rechengenauigkeit der gespeicherten Parameter reduziert: Ein 8B-Modell schrumpft in 4-Bit-Quantisierung von rund 16 GB auf etwa 5 GB – im Alltag haben wir dadurch keinen spürbaren Qualitätsverlust festgestellt. Wie sich das bei Bildmodellen verhält, zeigen wir im Artikel KI-Bilder im Praxistest.
Wer diese Hardware einmal lokal aufbaut, entgeht damit dauerhaft der oben beschriebenen Tokenkosten-Falle.
Wer Token, Kontextfenster und Modellgröße einordnen kann, bewertet KI-Angebote deutlich sicherer – und erkennt schneller, ob ein Modell zum eigenen Anwendungsfall passt.
Wie Unternehmen ihre eigenen Daten mit KI nutzbar machen, ohne ein Modell zu trainieren, zeigen wir im Artikel RAG-Systeme: Unternehmenswissen per KI nutzen. Dort geht es darum, wie genau dieses Kontextfenster gezielt mit dem passenden Firmenwissen gefüllt wird.
Sie haben konkrete Fragen zum Einsatz von KI in Ihrem Unternehmen? Wir schauen uns gemeinsam an, was davon für Ihren Fall realistisch und sinnvoll ist.
Noch keine Kommentare. Sei der Erste!
Kommentar schreiben
Kommentare werden nach manueller Prüfung freigeschaltet.