Server-Konfigurationen für Self-Hosted KI

Hardware

Drei Ausbaustufen

Die Einstiegsstufe eignet sich für kompakte Modelle bis ca. 24B Parameter und schnelle Bildgenerierung. Mit zwei gekoppelten 48-GB-GPUs laufen auch die größten verfügbaren Mistral-Modelle mit über 100 Milliarden Parametern.

	Einstieg 1× GPU, 24 GB VRAM	Business 1× GPU, 48 GB VRAM	Enterprise 2× GPU, je 48 GB VRAM
GPU	1× GPU mit 24 GB VRAM	1× GPU mit 48 GB VRAM	2× GPU mit je 48 GB VRAM (96 GB gesamt)
RAM	64 GB	64 GB	64 GB
Storage	2 TB NVMe	4 TB NVMe	4 TB NVMe
Empfohlen für	Einstieg, kleine Teams, Chatbots & Textverarbeitung, schnelle Bildgenerierung	Mehrere gleichzeitige Nutzer, größere Modelle, LLM & Bildgenerierung parallel	Anspruchsvolle Workloads, größte verfügbare Modelle, maximale Qualität
🧠 Reasoning	— (ab Enterprise)	— (ab Enterprise)	Mistral Medium 3.5 Mistral Large
🛠️ Agentic / Tool-Calling	Mistral Small 3.2 Mistral Small 3.1 Mistral Small Mistral NeMo Mistral (v0.3)	Mistral Small 3.2 Mistral Small 3.1 Mistral Small Mistral NeMo Mistral (v0.3)	Mistral Small 3.2 Mistral Small 3.1 Mistral Small Mistral NeMo Mistral (v0.3) Mixtral 8x22B
💬 Einfache Chat-Modelle	Mistral OpenOrca MistralLite	Mistral OpenOrca MistralLite Mixtral 8x7B	Mistral OpenOrca MistralLite Mixtral 8x7B
✨ Sonder-Modelle	Codestral Mathstral	Codestral Mathstral	Codestral Mathstral
FLUX-Bildmodelle	FLUX.1 Schnell FLUX.1 Dev	FLUX.1 Schnell FLUX.1 Dev FLUX.2 Dev	FLUX.1 Schnell FLUX.1 Dev FLUX.2 Dev

Modellzuordnung nach Q4-Quantisierung und tatsächlichem VRAM-Bedarf. FLUX.2 Dev (32B) empfehlen wir erst ab 48 GB VRAM für komfortablen Betrieb ohne CPU-Offload. Höhere Ausbaustufen können zusätzlich alle Modelle der darunterliegenden Stufen ausführen.

Server-Konfigurationen im Vergleich.

Drei Ausbaustufen

Welche Ausbaustufe passt zu Ihnen?