Kein Blackbox-Produkt. Sondern eine klare Architektur aus bewährten Open-Source-Komponenten – wartbar, erweiterbar und vollständig unter Ihrer Kontrolle.
Der Motor, der das Sprachmodell ausführt. Ollama eignet sich ideal für Prototyping und Einzelnutzer – Installation mit einem Befehl. vLLM ist der Produktionsstandard: Dank PagedAttention erreicht es bei vielen parallelen Nutzern bis zu 19-fach höheren Durchsatz.
Speichert Ihre Dokumente als semantische Vektoren für blitzschnelle Suche. Qdrant (in Rust geschrieben) für bis zu 10 Mio. Dokumente, Weaviate für funktionsreiche Enterprise-Pipelines, ChromaDB für schnellen Einstieg.
Das Gehirn der Applikation. LlamaIndex spezialisiert auf schnelle Dokumentensuche und Q&A. LangChain für komplexe Workflows, KI-Agenten und Chat-Historien. Best Practice: Beide kombiniert.
Beide Runtimes stellen eine OpenAI-kompatible REST-API bereit. Bestehende Anwendungen müssen nur die Base-URL ändern – die gesamte Logik funktioniert sofort mit dem lokalen Modell weiter.
Open WebUI bietet ein ChatGPT-ähnliches Interface, das komplett offline in Ihrem Netzwerk läuft. Multi-User-Management, Chat-Historien und direkter PDF-Upload inklusive. Oder: Integration als Widget in Ihre bestehende Anwendung.
Vollständige Protokollierung aller Anfragen und Antworten für Compliance-Anforderungen. Rollenbasierte Zugriffskontrolle (RBAC) stellt sicher: Die KI weiß nur, was der jeweilige Nutzer sehen darf.
Je nach Last und Verfügbarkeitsanforderung unterschiedliche Setups.
Der Flaschenhals ist der Grafikspeicher (VRAM). Durch Quantisierung (4-Bit) sinkt der Bedarf bei minimalem Qualitätsverlust. Faustregel: ca. 0,5 GB VRAM pro Milliarde Parameter.
Mistral 7B, Llama 3 8B – ca. 4-6 GB VRAM. Eine RTX 3060 (12 GB) oder RTX 4090 mit 32 GB RAM reicht aus. Ideal für Einstieg und Abteilungs-Chatbots.
Mixtral, Phi-3 Medium – ca. 8-16 GB VRAM. Eine RTX 4090 (24 GB) deckt diesen Bereich komfortabel ab. Für unternehmensweite Nutzung mit moderater Last.
Llama 3.3 70B – ca. 35-40 GB VRAM (quantisiert). Benötigt Multi-GPU-Setup oder NVIDIA A100/H100. Frontier-Level-Performance auf eigener Hardware.
Ein Server mit GPU. Für interne Tools und moderate Last ausreichend. Einfach zu betreiben und zu warten.
Für Produktionsbetrieb ist GPU zwingend erforderlich – CPUs erreichen nur 5-15 Tokens/s, GPUs 200+ Tokens/s. CPU nur für Tests akzeptabel.
Bei höherer Last: mehrere Nodes mit Load Balancing, separater Vektordatenbank und dediziertem Inference-Server via vLLM.
Auslastung, Antwortzeiten und Fehler werden überwacht. Alerts bei Problemen.
Wer hat was gefragt, welche Quellen wurden genutzt – auditierbar und nachvollziehbar.
Modell-Updates, Sicherheits-Patches und Erweiterungen der Wissensbasis werden laufend eingespielt.
Wir gehen die Details durch – offen, konkret und ohne Blackbox.
Direkter Kontakt – ohne Umwege. Wir melden uns innerhalb eines Werktages.