LLM-Kategorien erklärt: Reasoning, Agenten, Coding-Modelle

Warum es nicht „das eine" LLM gibt

Wer heute ein KI-Projekt startet, landet schnell bei der Frage: Welches Modell nehmen wir? Die naheliegende Antwort – „das bekannteste" – greift oft zu kurz. Sprachmodelle sind längst keine homogene Masse mehr. Ein Modell, das brillant Code schreibt, ist nicht automatisch die beste Wahl für einen Kundenservice-Chatbot. Ein Modell, das lange mathematische Beweise durchdenkt, braucht dafür oft ein Vielfaches der Zeit, die eine einfache Kundenanfrage verträgt.

Für Unternehmen lohnt sich deshalb ein Blick auf die Kategorien, bevor die Modellwahl fällt.

Die wichtigsten Kategorien von Text-LLMs

Allzweck-Chat-Modelle

Der Standardfall: breit trainiert, für allgemeine Konversation und Textaufgaben optimiert. Diese Modelle fassen Dokumente zusammen, helfen beim Formulieren und beantworten Alltagsfragen. Für die meisten internen Anwendungsfälle im Mittelstand reicht ein gutes Allzweck-Modell völlig aus.

Reasoning-Modelle

Diese Modelle denken laut nach, bevor sie antworten. Intern erzeugen sie mehrere Gedankenschritte und prüfen ihre eigene Argumentation, bevor die endgültige Antwort steht. Diese verdeckten Gedankenschritte verbrauchen zusätzliche Tokens, die bei Cloud-Anbietern mitberechnet werden – Reasoning-Modelle sind dort also spürbar langsamer und teurer. Bei lokal betriebenen Modellen kosten die Denkschritte kein Geld, dafür binden sie GPU-Rechenzeit und verlängern die Antwortzeit. In beiden Fällen gilt: Der Mehraufwand lohnt sich nur bei komplexen mehrstufigen Problemen, etwa einer Vertragsanalyse mit vielen Bedingungen oder einer Ausschreibungsauswertung. Für die einfache Frage nach der Rückgabefrist ist ein Reasoning-Modell dagegen reine Verschwendung.

Agenten- und Tool-Use-Modelle

Diese Kategorie ist darauf trainiert, zuverlässig mit externen Werkzeugen zu arbeiten: Funktionsaufrufe, APIs, MCP-Server (Model Context Protocol – die inzwischen gängige Standard-Schnittstelle, um Firmensysteme und Datenquellen anzubinden). Gefragt ist hier Präzision statt Kreativität – das Modell muss exakt die richtigen Parameter im richtigen Format übergeben, sonst bricht die Kette aus Aktionen ab. Genau diese Zuverlässigkeit unterscheidet gute Agenten-Modelle von Modellen, die zwar klug klingen, aber bei einem strukturierten API-Aufruf stolpern.

Coding-Modelle

Spezialisiert auf das Schreiben, Verstehen und Debuggen von Quellcode. Diese Modelle kennen Frameworks, Bibliotheken und typische Fehlermuster besonders gut, weil ihr Training stark auf Code-Repositories ausgerichtet war. Für die interne Softwareentwicklung oder als Unterstützung im IT-Team macht ein gutes Coding-Modell oft den größten Unterschied im Arbeitsalltag.

Multimodale Modelle

Hier verschwimmt die Grenze zum reinen Text-LLM bewusst: Multimodale Modelle nehmen zusätzlich Bilder, Diagramme oder teilweise Audiospuren als Eingabe entgegen, geben ihre Antwort aber weiterhin als Text aus – sie bleiben also im Kern Text-LLMs mit erweitertem Eingabekanal. Das Foto einer Rechnung oder der Screenshot einer Fehlermeldung lassen sich so direkt verarbeiten, ohne den Umweg über eine separate Texterkennung.

Die Kategorien schließen sich übrigens nicht gegenseitig aus. Viele aktuelle Modelle sind Allrounder mit Agenten-Fähigkeiten und solider Coding-Kompetenz zugleich – die Spezialisierung zeigt sich eher in der Gewichtung als in einer scharfen Trennung.

Aktuell verbreitete Open-Weight- und Open-Source-Anbieter

Neben den bekannten Cloud-Anbietern wie OpenAI, Anthropic und Google hat sich eine eigene Landschaft an frei verfügbaren Modellfamilien etabliert, die sich lokal betreiben oder über günstigere Cloud-Anbieter nutzen lassen. Ein Hinweis zur Begrifflichkeit: „Open Source" wird hier oft großzügig verwendet. Streng genommen sind viele dieser Modelle Open Weight – die trainierten Gewichte sind frei nutzbar, aber nicht jede Lizenz erfüllt die klassische Open-Source-Definition (etwa bei Einschränkungen für sehr große Unternehmen). Für die Praxis zählt vor allem: Läuft das Modell lokal, und was erlaubt die Lizenz?

Llama (Meta) – eines der am weitesten verbreiteten Open-Weight-Modelle im Unternehmenseinsatz, besonders stark bei langem Kontext.
Mistral (Mistral AI) – europäischer Anbieter mit starken mehrsprachigen Fähigkeiten, relevant für DSGVO-sensible Projekte.
Qwen (Alibaba) – breite Modellpalette von klein bis sehr groß, gute Coding- und Reasoning-Ergebnisse.
DeepSeek – bekannt für starke Reasoning-Fähigkeiten bei vergleichsweise niedrigen Betriebskosten.
Gemma (Google) – offene Modelle aus derselben Forschung wie Googles Cloud-Modelle, gut geeignet für kleinere lokale Deployments.
GLM (Zhipu AI) – zunehmend stark im Coding-Bereich.

Für ein Self-Hosted-Setup im Mittelstand sind vor allem Modelle mit permissiver (also sehr freizügiger) Lizenz interessant, etwa unter Apache 2.0 oder MIT. Sie lassen sich ohne Lizenzgebühren kommerziell einsetzen und anpassen. Der zweite große Vorteil neben der Lizenz: Lokal betriebene Modelle verarbeiten sensible Unternehmensdaten wie Verträge oder Personalunterlagen, ohne dass diese das Firmennetz verlassen. Für viele Datenschutzfragen ist das die einfachste Antwort.

Auch die Kostenstruktur ändert sich mit dieser Entscheidung: Bei Cloud-Modellen fallen laufende API-Kosten pro Anfrage an, bei Open-Weight-Modellen verlagern sich die Kosten auf die initiale Hardware und den internen Betrieb. Wer lokal plant, muss dabei den Bedarf an GPU-Speicher realistisch einschätzen – gerade Coding- und Reasoning-Modelle brauchen für akzeptable Antwortzeiten spürbar mehr Hardware als ein schlankes Allzweck-Modell.

Praxistipp: Die Modelllandschaft verändert sich schnell – neue Versionen erscheinen oft im Monatstakt. Ein Modell, das heute führend ist, kann in einem halben Jahr bereits von einer neueren Generation überholt sein.

Kurzer Blick über den Tellerrand

Dieser Artikel konzentriert sich bewusst auf Text-LLMs – also Modelle, die Text lesen und Text ausgeben. Daneben gibt es eigene Modellfamilien für andere Modalitäten:

Voice-to-Text wandelt gesprochene Sprache in Text um, etwa für Transkription oder Diktierfunktionen.
Text-to-Bild erzeugt Bilder aus Textbeschreibungen.
Text-to-Video erzeugt kurze Videosequenzen aus Textprompts.

Diese Systeme arbeiten technisch anders als Text-LLMs und verdienen einen eigenen Artikel.

Fazit

Die Frage „Welches LLM ist das beste?" lässt sich pauschal nicht beantworten. Die bessere Frage lautet: Welche Kategorie passt zur Aufgabe? Ein schlankes Allzweck-Modell für den täglichen Chat, dazu bei Bedarf ein Reasoning-Modell für komplexe Analysen oder ein Coding-Modell in der Entwicklung. Diese Kombination mehrerer spezialisierter Modelle ist in der Praxis oft wirtschaftlicher als ein einzelnes Modell für alles.

Praxistipp: Bauen Sie Ihre KI-Anbindung von Anfang an austauschbar auf, etwa über ein zentrales API-Gateway. Dann lässt sich das Modell für Chat, Reasoning oder Code je nach Abteilung und Aufgabe flexibel wechseln, ohne die eigentliche Anwendung neu schreiben zu müssen.

LLM-Kategorien im Überblick: Reasoning, Agenten, Code

Warum es nicht „das eine" LLM gibt

Die wichtigsten Kategorien von Text-LLMs

Allzweck-Chat-Modelle

Reasoning-Modelle

Agenten- und Tool-Use-Modelle

Coding-Modelle

Multimodale Modelle

Aktuell verbreitete Open-Weight- und Open-Source-Anbieter

Kurzer Blick über den Tellerrand

Fazit

Was hier beschrieben ist,
lässt sich umsetzen.

Kommentare

Kommentar schreiben

LLM-Kategorien im Überblick: Reasoning, Agenten, Code

Warum es nicht „das eine" LLM gibt

Die wichtigsten Kategorien von Text-LLMs

Allzweck-Chat-Modelle

Reasoning-Modelle

Agenten- und Tool-Use-Modelle

Coding-Modelle

Multimodale Modelle

Aktuell verbreitete Open-Weight- und Open-Source-Anbieter

Kurzer Blick über den Tellerrand

Fazit

Was hier beschrieben ist,lässt sich umsetzen.

Kommentare

Kommentar schreiben

Was hier beschrieben ist,
lässt sich umsetzen.