Nicht jedes LLM kann alles. Ein Überblick über Reasoning-, Agenten- und Coding-Modelle – und welche Open-Source-Anbieter aktuell führend sind.
Lieber ansehen statt lesen? Der Artikel als Video.
Wer heute ein KI-Projekt startet, landet schnell bei der Frage: Welches Modell nehmen wir? Die naheliegende Antwort – „das bekannteste" – greift oft zu kurz. Sprachmodelle sind längst keine homogene Masse mehr. Ein Modell, das brillant Code schreibt, ist nicht automatisch die beste Wahl für einen Kundenservice-Chatbot. Ein Modell, das lange mathematische Beweise durchdenkt, braucht dafür oft ein Vielfaches der Zeit, die eine einfache Kundenanfrage verträgt.
Für Unternehmen lohnt sich deshalb ein Blick auf die Kategorien, bevor die Modellwahl fällt.
Der Standardfall: breit trainiert, für allgemeine Konversation und Textaufgaben optimiert. Diese Modelle fassen Dokumente zusammen, helfen beim Formulieren und beantworten Alltagsfragen. Für die meisten internen Anwendungsfälle im Mittelstand reicht ein gutes Allzweck-Modell völlig aus.
Diese Modelle denken laut nach, bevor sie antworten. Intern erzeugen sie mehrere Gedankenschritte und prüfen ihre eigene Argumentation, bevor die endgültige Antwort steht. Diese verdeckten Gedankenschritte verbrauchen zusätzliche Tokens, die bei Cloud-Anbietern mitberechnet werden – Reasoning-Modelle sind dort also spürbar langsamer und teurer. Bei lokal betriebenen Modellen kosten die Denkschritte kein Geld, dafür binden sie GPU-Rechenzeit und verlängern die Antwortzeit. In beiden Fällen gilt: Der Mehraufwand lohnt sich nur bei komplexen mehrstufigen Problemen, etwa einer Vertragsanalyse mit vielen Bedingungen oder einer Ausschreibungsauswertung. Für die einfache Frage nach der Rückgabefrist ist ein Reasoning-Modell dagegen reine Verschwendung.
Diese Kategorie ist darauf trainiert, zuverlässig mit externen Werkzeugen zu arbeiten: Funktionsaufrufe, APIs, MCP-Server (Model Context Protocol – die inzwischen gängige Standard-Schnittstelle, um Firmensysteme und Datenquellen anzubinden). Gefragt ist hier Präzision statt Kreativität – das Modell muss exakt die richtigen Parameter im richtigen Format übergeben, sonst bricht die Kette aus Aktionen ab. Genau diese Zuverlässigkeit unterscheidet gute Agenten-Modelle von Modellen, die zwar klug klingen, aber bei einem strukturierten API-Aufruf stolpern.
Spezialisiert auf das Schreiben, Verstehen und Debuggen von Quellcode. Diese Modelle kennen Frameworks, Bibliotheken und typische Fehlermuster besonders gut, weil ihr Training stark auf Code-Repositories ausgerichtet war. Für die interne Softwareentwicklung oder als Unterstützung im IT-Team macht ein gutes Coding-Modell oft den größten Unterschied im Arbeitsalltag.
Hier verschwimmt die Grenze zum reinen Text-LLM bewusst: Multimodale Modelle nehmen zusätzlich Bilder, Diagramme oder teilweise Audiospuren als Eingabe entgegen, geben ihre Antwort aber weiterhin als Text aus – sie bleiben also im Kern Text-LLMs mit erweitertem Eingabekanal. Das Foto einer Rechnung oder der Screenshot einer Fehlermeldung lassen sich so direkt verarbeiten, ohne den Umweg über eine separate Texterkennung.
Die Kategorien schließen sich übrigens nicht gegenseitig aus. Viele aktuelle Modelle sind Allrounder mit Agenten-Fähigkeiten und solider Coding-Kompetenz zugleich – die Spezialisierung zeigt sich eher in der Gewichtung als in einer scharfen Trennung.
Neben den bekannten Cloud-Anbietern wie OpenAI, Anthropic und Google hat sich eine eigene Landschaft an frei verfügbaren Modellfamilien etabliert, die sich lokal betreiben oder über günstigere Cloud-Anbieter nutzen lassen. Ein Hinweis zur Begrifflichkeit: „Open Source" wird hier oft großzügig verwendet. Streng genommen sind viele dieser Modelle Open Weight – die trainierten Gewichte sind frei nutzbar, aber nicht jede Lizenz erfüllt die klassische Open-Source-Definition (etwa bei Einschränkungen für sehr große Unternehmen). Für die Praxis zählt vor allem: Läuft das Modell lokal, und was erlaubt die Lizenz?
Für ein Self-Hosted-Setup im Mittelstand sind vor allem Modelle mit permissiver (also sehr freizügiger) Lizenz interessant, etwa unter Apache 2.0 oder MIT. Sie lassen sich ohne Lizenzgebühren kommerziell einsetzen und anpassen. Der zweite große Vorteil neben der Lizenz: Lokal betriebene Modelle verarbeiten sensible Unternehmensdaten wie Verträge oder Personalunterlagen, ohne dass diese das Firmennetz verlassen. Für viele Datenschutzfragen ist das die einfachste Antwort.
Auch die Kostenstruktur ändert sich mit dieser Entscheidung: Bei Cloud-Modellen fallen laufende API-Kosten pro Anfrage an, bei Open-Weight-Modellen verlagern sich die Kosten auf die initiale Hardware und den internen Betrieb. Wer lokal plant, muss dabei den Bedarf an GPU-Speicher realistisch einschätzen – gerade Coding- und Reasoning-Modelle brauchen für akzeptable Antwortzeiten spürbar mehr Hardware als ein schlankes Allzweck-Modell.
Praxistipp: Die Modelllandschaft verändert sich schnell – neue Versionen erscheinen oft im Monatstakt. Ein Modell, das heute führend ist, kann in einem halben Jahr bereits von einer neueren Generation überholt sein.
Dieser Artikel konzentriert sich bewusst auf Text-LLMs – also Modelle, die Text lesen und Text ausgeben. Daneben gibt es eigene Modellfamilien für andere Modalitäten:
Diese Systeme arbeiten technisch anders als Text-LLMs und verdienen einen eigenen Artikel.
Die Frage „Welches LLM ist das beste?" lässt sich pauschal nicht beantworten. Die bessere Frage lautet: Welche Kategorie passt zur Aufgabe? Ein schlankes Allzweck-Modell für den täglichen Chat, dazu bei Bedarf ein Reasoning-Modell für komplexe Analysen oder ein Coding-Modell in der Entwicklung. Diese Kombination mehrerer spezialisierter Modelle ist in der Praxis oft wirtschaftlicher als ein einzelnes Modell für alles.
Praxistipp: Bauen Sie Ihre KI-Anbindung von Anfang an austauschbar auf, etwa über ein zentrales API-Gateway. Dann lässt sich das Modell für Chat, Reasoning oder Code je nach Abteilung und Aufgabe flexibel wechseln, ohne die eigentliche Anwendung neu schreiben zu müssen.
Sie haben konkrete Fragen zum Einsatz von KI in Ihrem Unternehmen? Wir schauen uns gemeinsam an, was davon für Ihren Fall realistisch und sinnvoll ist.
Noch keine Kommentare. Sei der Erste!
Kommentar schreiben
Kommentare werden nach manueller Prüfung freigeschaltet.