Lokale KI vs. Cloud: Wann sich eigene Hardware lohnt

Die KI-Schlagzeilen der letzten Monate klingen alle irgendwie gleich: Projekte liefern nicht den erwarteten ROI, Kosten explodieren, Budgets werden eingefroren. Und meistens liegt das nicht daran, dass KI nicht funktioniert. Die Technik macht, was sie soll. Das Problem ist die Abrechnung.

Wir wollten KI intensiv nutzen – für Entwicklung, Dokumentenanalyse, interne Prozesse, Bildgenerierung. Und wir wollten nicht ständig kontrollieren, wie viele Tokens gerade verbraucht werden. Das klingt nach einem kleinen Wunsch. In der Praxis ist es schwieriger als gedacht.

Ein Mitarbeiter nutzt KI sporadisch, ein anderer den ganzen Tag. Ein Projekt braucht zehn Bilder, das nächste fünfhundert. Eine Dokumentenanalyse umfasst fünf Seiten, die nächste mehrere tausend. Je mehr KI in den Alltag eingebunden wird, desto weniger lässt sich vorhersagen, was das am Monatsende kostet. Irgendwann haben wir aufgehört, das als Kalkulationsproblem zu betrachten, und es als Infrastrukturproblem verstanden.

Unsere Lösung: eigene Hardware, lokale KI. Nicht weil Cloud-APIs schlecht wären – die nutzen wir weiterhin. Sondern weil feste Infrastrukturkosten für bestimmte Workloads einfach besser passen. Möglich machen das offene Modelle wie FLUX für Bilder oder Llama für Sprache, die sich lokal betreiben lassen.

Dazu kommt ein Vorteil, der für viele Mittelständler sogar an erster Stelle steht: Alle Daten – Dokumente, Bilder, Kundendaten – bleiben im eigenen Netz. Cloud-KI lässt sich datenschutzkonform betreiben, keine Frage. Aber bei einer lokalen Installation stellt sich ein Teil dieser Fragen gar nicht erst.

Ein Projekt mit knapp 500 Illustrationen

Konkret wurde das bei einer Lernanwendung für Kinder. Die App braucht Bilder zu Aufgaben, Begriffen, Vokabeln – gerade für Kinder, die noch nicht flüssig lesen. Knapp 500 Illustrationen insgesamt.

Die erste Runde war schnell generiert. Dann fing die eigentliche Arbeit an: Zeichenstil angepasst, Farben geändert, neue Figuren hinzu, bestehende in anderer Kleidung. Komplette Serien wurden mehrfach neu generiert – nicht weil etwas falsch lief, sondern weil während des Projekts Ideen entstanden, die vorher niemand hatte.

Bei tokenbasierter Abrechnung kostet jede dieser Runden extra. Bei eigener Hardware verursacht die einzelne Runde dagegen keine spürbaren Mehrkosten – Strom, Abschreibung und Wartung sind als Fixkosten ohnehin budgetiert. Das klingt nach einem Buchhaltungsdetail, ändert aber die gesamte Arbeitsweise.

Das Problem ist nicht der Preis, sondern die Unvorhersehbarkeit

Tokenbasierte Modelle sind fair aufgebaut. Wer wenig nutzt, zahlt wenig. Für Anbieter macht das Sinn. Für Unternehmen bedeutet das aber: Irgendwann muss jemand entscheiden, wie viele Bilder ein Projekt "darf", wie viele Dokumente analysiert werden können, wer welches Kontingent bekommt. Diese Entscheidungen sind nicht falsch – aber sie sind eine Bremse.

Was dabei leicht unterschätzt wird: Sobald jede Anfrage einen Preis hat, ändert sich das Verhalten, auch ohne dass jemand bewusst darüber nachdenkt. Die Frage ist nicht mehr "Kann KI mir hier helfen?", sondern "Lohnt sich das?". Ausgerechnet die Leute, die KI am produktivsten einsetzen könnten, werden so am ehesten eingebremst.

Mit eigener Infrastruktur denkt man nicht mehr in Anfragen, sondern in Ergebnissen. Das klingt abstrakt, ist aber spürbar: Wir experimentieren seit dem Aufbau deutlich mehr als vorher.

Was sich erst nach Monaten zeigt

Der interessanteste Effekt kam nicht sofort. Einige Monate nach dem Aufbau der Infrastruktur entstanden Projekte, die wir vorher nicht angegangen wären.

Fast alle Bilder auf dieser Website wurden mit KI generiert. Ob sich das rechnet? Früher hätten wir das abgewogen. Heute fragen wir eher: warum nicht? Auch Ideen wie saisonal wechselnde Website-Bilder entstehen überhaupt erst, wenn das Kostenproblem weggefallen ist.

Mehr als Bilder

Dieselbe Hardware – bei uns ein Server mit einer AMD RX 7900 XTX und 24 GB Grafikspeicher – läuft auch für Sprachmodelle, Dokumentenanalyse und Entwicklerunterstützung. Morgens Marketingbilder, nachmittags Code-Review. Zusätzliche Grafikkarten lassen sich ergänzen, wenn die Auslastung steigt.

KI scheitert selten an der Technik

Die Technik ist mittlerweile wirklich gut. Was schwieriger ist: KI so zu integrieren, dass die Kosten planbar bleiben und Mitarbeiter nicht durch Limits gebremst werden.

Eigene Infrastruktur war für uns eine Möglichkeit, das zu lösen – nicht für jeden Anwendungsfall und nicht als Ersatz für Cloud-Lösungen. In der Praxis heißt das bei uns: Die Masse der Anfragen läuft lokal, und für einzelne Spitzenaufgaben, bei denen die großen Cloud-Modelle sichtbar besser sind, bleibt die API im Einsatz.

Der eigentliche Gewinn ist nicht die Kostenersparnis. Es ist, dass man irgendwann aufhört zu zählen – und anfängt zu machen.

Warum wir KI grundsätzlich lieber im eigenen Haus betreiben – und was das technisch bedeutet – steht unter KI selbst hosten.

500 Bilder ohne Tokenkosten – warum wir auf lokale KI setzen