KI-Architektur für Unternehmen

Aufbau

Die vier Kernkomponenten

LLM Runtime

Der Motor, der das Sprachmodell ausführt. Ollama eignet sich ideal für Prototyping und Einzelnutzer – Installation mit einem Befehl. vLLM ist der Produktionsstandard: Dank PagedAttention erreicht es bei vielen parallelen Nutzern bis zu 19-fach höheren Durchsatz.

Vektordatenbank

Speichert Ihre Dokumente als semantische Vektoren für blitzschnelle Suche. Qdrant (in Rust geschrieben) für bis zu 10 Mio. Dokumente, Weaviate für funktionsreiche Enterprise-Pipelines, ChromaDB für schnellen Einstieg.

RAG-Framework

Das Gehirn der Applikation. LlamaIndex spezialisiert auf schnelle Dokumentensuche und Q&A. LangChain für komplexe Workflows, KI-Agenten und Chat-Historien. Best Practice: Beide kombiniert.

API Layer

Beide Runtimes stellen eine OpenAI-kompatible REST-API bereit. Bestehende Anwendungen müssen nur die Base-URL ändern – die gesamte Logik funktioniert sofort mit dem lokalen Modell weiter.

Benutzeroberfläche

Open WebUI bietet ein ChatGPT-ähnliches Interface, das komplett offline in Ihrem Netzwerk läuft. Multi-User-Management, Chat-Historien und direkter PDF-Upload inklusive. Oder: Integration als Widget in Ihre bestehende Anwendung.

Monitoring & Audit

Vollständige Protokollierung aller Anfragen und Antworten für Compliance-Anforderungen. Rollenbasierte Zugriffskontrolle (RBAC) stellt sicher: Die KI weiß nur, was der jeweilige Nutzer sehen darf.

Single Node vs. Cluster

Je nach Last und Verfügbarkeitsanforderung unterschiedliche Setups.

Hardware-Empfehlungen

Der Flaschenhals ist der Grafikspeicher (VRAM). Durch Quantisierung (4-Bit) sinkt der Bedarf bei minimalem Qualitätsverlust. Faustregel: ca. 0,5 GB VRAM pro Milliarde Parameter.

7B Modelle

Mistral 7B, Llama 3 8B – ca. 4-6 GB VRAM. Eine RTX 3060 (12 GB) oder RTX 4090 mit 32 GB RAM reicht aus. Ideal für Einstieg und Abteilungs-Chatbots.

13B–30B Modelle

Mixtral, Phi-3 Medium – ca. 8-16 GB VRAM. Eine RTX 4090 (24 GB) deckt diesen Bereich komfortabel ab. Für unternehmensweite Nutzung mit moderater Last.

70B Modelle

Llama 3.3 70B – ca. 35-40 GB VRAM (quantisiert). Benötigt Multi-GPU-Setup oder NVIDIA A100/H100. Frontier-Level-Performance auf eigener Hardware.

Single Node

Ein Server mit GPU. Für interne Tools und moderate Last ausreichend. Einfach zu betreiben und zu warten.

GPU vs. CPU

Für Produktionsbetrieb ist GPU zwingend erforderlich – CPUs erreichen nur 5-15 Tokens/s, GPUs 200+ Tokens/s. CPU nur für Tests akzeptabel.

Skalierung

Bei höherer Last: mehrere Nodes mit Load Balancing, separater Vektordatenbank und dediziertem Inference-Server via vLLM.

Monitoring & Logging

Betriebsüberwachung

Auslastung, Antwortzeiten und Fehler werden überwacht. Alerts bei Problemen.

Anfrage-Logging

Wer hat was gefragt, welche Quellen wurden genutzt – auditierbar und nachvollziehbar.

Updates & Wartung

Modell-Updates, Sicherheits-Patches und Erweiterungen der Wissensbasis werden laufend eingespielt.

Wie ein Self-Hosted Firmen-Chatbot aufgebaut ist.