- Published on
On-Premise KI: 5 Self-Hosted LLM-Lösungen verglichen
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Für Mittelständler, die KI ohne Cloud betreiben wollen, stehen fünf etablierte Self-Hosted-LLM-Lösungen zur Wahl: Ollama für den schnellen Einstieg, vLLM für maximalen Durchsatz, LocalAI als OpenAI-Drop-in, llama.cpp für minimale Hardware und Text Generation Inference für Enterprise-Skalierung. Die Kosten starten bei 2.400 €, der Durchsatz reicht von 12 bis 85 Tokens pro Sekunde.
Warum Self-Hosted LLM statt Cloud-API?
Drei Argumente sprechen für Self-Hosted-Betrieb: Datenschutz, Kosten und Kontrolle. Ein Mittelständler mit 200 Mitarbeitern, der GPT-4 über die OpenAI-API nutzt, zahlt bei moderater Nutzung (50.000 Anfragen/Monat) rund 1.200 €/Monat, also 14.400 €/Jahr. Ein Self-Hosted-Server mit Llama 3.3 kostet einmalig 2.400–8.000 € und liefert vergleichbare Qualität für deutsche Fachaufgaben.
Datenschutz ist für 78 % der deutschen Mittelständler das Hauptargument gegen Cloud-KI (Bitkom-Studie 2025). Verträge, Kundendaten und interne Dokumente dürfen bei vielen Unternehmen das eigene Netzwerk nicht verlassen. Self-Hosted bedeutet: Alle Daten bleiben auf dem eigenen Server, kein Byte geht an Dritte.
Die KI-Budgetplanung zeigt im Detail, ab welchem Nutzungsvolumen Self-Hosted wirtschaftlicher ist als Cloud-APIs.
Die 5 Lösungen im Vergleich
| Kriterium | Ollama | vLLM | LocalAI | llama.cpp | TGI |
|---|---|---|---|---|---|
| Schwerpunkt | Einfachheit | Durchsatz | Kompatibilität | Minimalismus | Enterprise |
| OpenAI-API kompatibel | Ja | Ja | Ja | Nein (eigene API) | Ja |
| GPU-Unterstützung | NVIDIA, Apple | NVIDIA | NVIDIA, CPU | CPU, Metal, CUDA | NVIDIA |
| Max. Modellgröße | 405B | 405B | 70B | 405B | 405B |
| Tokens/Sek. (70B, A100) | 28 | 85 | 22 | 12 | 72 |
| Tokens/Sek. (8B, RTX 4090) | 65 | 95 | 48 | 35 | 78 |
| Batching | Nein | Continuous | Nein | Nein | Continuous |
| Quantisierung | GGUF (Q4-Q8) | AWQ, GPTQ | GGUF | GGUF | AWQ, GPTQ, EETQ |
| Setup-Zeit | 5 Min. | 30 Min. | 15 Min. | 10 Min. | 45 Min. |
| Docker-Support | Ja | Ja | Ja | Community | Ja |
| Lizenz | MIT | Apache 2.0 | MIT | MIT | Apache 2.0 |
Ollama: Der Einstieg in 5 Minuten
Ollama ist die einfachste Lösung. Ein einziger Befehl installiert die Software und lädt das Modell. Ideal für: Erste Experimente, Einzelplatz-Nutzung, Entwickler-Workstations.
# Installation und Start
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.3:8b-instruct-q4_K_M
ollama run llama3.3:8b-instruct-q4_K_M
Stärken: Modellwechsel in Sekunden, automatische GPU-Erkennung, minimale Konfiguration. Schwächen: Kein Batching, daher bei mehreren gleichzeitigen Benutzern langsam. Ab 5 parallelen Anfragen bricht der Durchsatz ein.
vLLM: Maximaler Durchsatz für Teams
vLLM ist der Goldstandard für produktive LLM-Server. Continuous Batching ermöglicht 3–5x höheren Durchsatz als Ollama bei gleicher Hardware. Ideal für: Teams mit 10–50 Benutzern, API-Backend für Anwendungen.
# vllm_config.yaml – Produktiv-Konfiguration
server:
model: "meta-llama/Llama-3.3-70B-Instruct"
quantization: "awq"
tensor_parallel_size: 2 # 2x A100
max_model_len: 8192
gpu_memory_utilization: 0.92
port: 8000
api_key: "sk-mittelstand-intern-2026"
max_num_batched_tokens: 32768
enable_prefix_caching: true
Die vLLM-Installationsanleitung beschreibt den Setup-Prozess im Detail. Stärken: PagedAttention für optimale Speichernutzung, Prefix Caching für RAG-Workloads. Schwächen: Nur NVIDIA-GPUs, komplexere Konfiguration als Ollama.
LocalAI: OpenAI-Drop-in ohne Code-Änderung
LocalAI emuliert die OpenAI-API vollständig, inklusive Embeddings, Whisper und Stable Diffusion. Bestehende Anwendungen, die gegen die OpenAI-API programmiert sind, funktionieren ohne Code-Änderung. Ideal für: Migration von Cloud zu On-Premise, polyglotte Setups.
Stärken: Unterstützt Text, Audio und Bild in einer Lösung. CPU-Fallback wenn keine GPU verfügbar. Schwächen: Geringerer Durchsatz als vLLM, Community-Projekt mit kleinerem Entwicklerteam.
llama.cpp: LLM auf Consumer-Hardware
llama.cpp ist die Low-Level-Lösung für minimale Hardware. Es läuft auf CPUs, Apple Silicon und sogar auf Raspberry Pi (für kleine Modelle). Ideal für: Edge-Geräte, alte Server ohne GPU, Embedded-Systeme.
Stärken: Läuft auf praktisch jeder Hardware, extrem geringe Abhängigkeiten (ein Binary). Schwächen: Kein OpenAI-kompatibles API (Drittlösung nötig), geringster Durchsatz, kein Batching.
Text Generation Inference: Enterprise-Skalierung
Hugging Faces TGI bietet Enterprise-Features: Token-Streaming, Prometheus-Metriken, Health Checks. Ideal für: Unternehmen mit bestehender Kubernetes-Infrastruktur, SLA-Anforderungen.
Stärken: Production-ready mit Monitoring, horizontal skalierbar, Speculative Decoding für 30 % mehr Speed. Schwächen: Höchster Konfigurationsaufwand, nur NVIDIA-GPUs.
Entscheidungsmatrix: Welche Lösung passt?
| Szenario | Empfehlung | Grund |
|---|---|---|
| 1–3 Benutzer, Einstieg | Ollama | 5 Minuten Setup, kein Vorwissen nötig |
| 5–50 Benutzer, Produktion | vLLM | Bester Durchsatz, stabile API |
| Migration von OpenAI | LocalAI | Null Code-Änderungen |
| Kein GPU-Budget | llama.cpp | CPU-only möglich |
| Kubernetes, SLA-Anforderung | TGI | Monitoring, Skalierung |
Hardware-Empfehlungen nach Budget
| Budget | Hardware | Beste Lösung | Leistung |
|---|---|---|---|
| 2.400 € | RTX 4090, 64 GB RAM | Ollama / vLLM | 8B-Modell, 65–95 Tok/s |
| 4.800 € | 2x RTX 4090, 128 GB RAM | vLLM | 70B-Modell, 25–35 Tok/s |
| 18.000 € | A100 80 GB, 256 GB RAM | vLLM / TGI | 70B-Modell, 72–85 Tok/s |
| 35.000 € | 2x A100, 512 GB RAM | TGI (Kubernetes) | 70B, 50+ parallele User |
Die ROI-Berechnungsvorlage hilft bei der Kalkulation der Amortisation gegenüber Cloud-APIs.
Sicherheit und DSGVO
Alle fünf Lösungen laufen lokal und senden keine Daten an externe Server. Für DSGVO-Konformität beachten Sie:
- Zugangskontrolle: vLLM und TGI unterstützen API-Keys. Bei Ollama muss ein Reverse Proxy (nginx, Caddy) vorgeschaltet werden.
- Logging: Protokollieren Sie, wer wann welche Anfrage gestellt hat. Alle Lösungen können Anfragen loggen.
- Modellherkunft: Dokumentieren Sie, welches Modell mit welchen Trainingsdaten verwendet wird (AI Act Anforderung).
- Verarbeitungsverzeichnis: Self-Hosted LLMs gehören ins DSGVO-Verarbeitungsverzeichnis, auch wenn keine Daten das Unternehmen verlassen.
Der KI-Komplett-Leitfaden beschreibt die rechtlichen Anforderungen an KI-Systeme im Detail.
Migration von Cloud zu On-Premise
Der Umstieg von OpenAI/Azure auf Self-Hosted dauert typischerweise 2–4 Wochen:
Woche 1: Hardware beschaffen, vLLM oder LocalAI installieren, Modell laden. Woche 2: Bestehende Anwendungen auf lokale API umstellen (bei LocalAI nur URL ändern). Woche 3: Parallel-Betrieb: Cloud und lokal gleichzeitig, Qualität vergleichen. Woche 4: Cloud abschalten, Monitoring einrichten.
Die KI-Implementierungsanleitung beschreibt den Migrationsprozess detailliert.
FAQ
Welche Lösung empfehlen Sie für den Einstieg? Ollama. Installation dauert 5 Minuten, das Ergebnis ist sofort sichtbar. Wenn Sie mit Ollama die Machbarkeit bestätigt haben, migrieren Sie für den Produktivbetrieb zu vLLM.
Kann ich mehrere Modelle gleichzeitig betreiben? Ja, vLLM und TGI unterstützen Multi-Model-Serving. Ollama lädt Modelle on-demand, was bei Modellwechsel 10–30 Sekunden Ladezeit verursacht. LocalAI kann ebenfalls mehrere Modelle parallel bedienen.
Wie viel VRAM brauche ich für ein 70B-Modell? In 4-Bit-Quantisierung (Q4_K_M): 42 GB VRAM. Eine RTX 4090 (24 GB) reicht nicht, Sie benötigen 2x RTX 4090 oder eine A100 mit 80 GB. In 8-Bit: 70 GB VRAM.
Sind Self-Hosted-Modelle schlechter als GPT-4? Für allgemeine Aufgaben ist GPT-4 überlegen. Für deutsche Fachtexte, Code-Generierung und strukturierte Ausgaben liefern fine-getunte Llama-3.3-Modelle vergleichbare Ergebnisse, insbesondere nach branchenspezifischem Fine-Tuning.
Was passiert bei einem Hardware-Defekt? Konfigurieren Sie ein automatisches Fallback auf eine Cloud-API (z. B. Azure OpenAI). Alle fünf Lösungen sind OpenAI-API-kompatibel, sodass ein URL-Wechsel genügt. Die GPU-Reparatur dauert typischerweise 3–5 Werktage.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
Copilot vs. lokale KI: TCO-Vergleich Mittelstand
TCO-Vergleich Copilot vs. lokale KI im Mittelstand. Copilot: €42.000/Jahr bei 100 Nutzern. Lokal: €18.000/Jahr. Entscheidungshilfe.
KI-as-a-Service: Kosten für 5 Anbieter verglichen
KI-as-a-Service Kosten im Vergleich: 5 Anbieter von €490 bis €4.200/Monat. Praxistest mit echten Zahlen und Entscheidungsmatrix für den Mittelstand.
Air-Gapped KI: LLM ohne Internet im Werk
LLMs komplett offline betreiben: Air-Gapped-Installation von Llama 3.3 ohne Internet. Für KRITIS und Produktion. Setup in 4 Stunden, 0 € API-Kosten.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)