Published on

On-Premise KI: 5 Self-Hosted LLM-Lösungen verglichen

Authors

TL;DR

Für Mittelständler, die KI ohne Cloud betreiben wollen, stehen fünf etablierte Self-Hosted-LLM-Lösungen zur Wahl: Ollama für den schnellen Einstieg, vLLM für maximalen Durchsatz, LocalAI als OpenAI-Drop-in, llama.cpp für minimale Hardware und Text Generation Inference für Enterprise-Skalierung. Die Kosten starten bei 2.400 €, der Durchsatz reicht von 12 bis 85 Tokens pro Sekunde.


Warum Self-Hosted LLM statt Cloud-API?

Drei Argumente sprechen für Self-Hosted-Betrieb: Datenschutz, Kosten und Kontrolle. Ein Mittelständler mit 200 Mitarbeitern, der GPT-4 über die OpenAI-API nutzt, zahlt bei moderater Nutzung (50.000 Anfragen/Monat) rund 1.200 €/Monat, also 14.400 €/Jahr. Ein Self-Hosted-Server mit Llama 3.3 kostet einmalig 2.400–8.000 € und liefert vergleichbare Qualität für deutsche Fachaufgaben.

Datenschutz ist für 78 % der deutschen Mittelständler das Hauptargument gegen Cloud-KI (Bitkom-Studie 2025). Verträge, Kundendaten und interne Dokumente dürfen bei vielen Unternehmen das eigene Netzwerk nicht verlassen. Self-Hosted bedeutet: Alle Daten bleiben auf dem eigenen Server, kein Byte geht an Dritte.

Die KI-Budgetplanung zeigt im Detail, ab welchem Nutzungsvolumen Self-Hosted wirtschaftlicher ist als Cloud-APIs.

Die 5 Lösungen im Vergleich

KriteriumOllamavLLMLocalAIllama.cppTGI
SchwerpunktEinfachheitDurchsatzKompatibilitätMinimalismusEnterprise
OpenAI-API kompatibelJaJaJaNein (eigene API)Ja
GPU-UnterstützungNVIDIA, AppleNVIDIANVIDIA, CPUCPU, Metal, CUDANVIDIA
Max. Modellgröße405B405B70B405B405B
Tokens/Sek. (70B, A100)2885221272
Tokens/Sek. (8B, RTX 4090)6595483578
BatchingNeinContinuousNeinNeinContinuous
QuantisierungGGUF (Q4-Q8)AWQ, GPTQGGUFGGUFAWQ, GPTQ, EETQ
Setup-Zeit5 Min.30 Min.15 Min.10 Min.45 Min.
Docker-SupportJaJaJaCommunityJa
LizenzMITApache 2.0MITMITApache 2.0

Ollama: Der Einstieg in 5 Minuten

Ollama ist die einfachste Lösung. Ein einziger Befehl installiert die Software und lädt das Modell. Ideal für: Erste Experimente, Einzelplatz-Nutzung, Entwickler-Workstations.

# Installation und Start
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.3:8b-instruct-q4_K_M
ollama run llama3.3:8b-instruct-q4_K_M

Stärken: Modellwechsel in Sekunden, automatische GPU-Erkennung, minimale Konfiguration. Schwächen: Kein Batching, daher bei mehreren gleichzeitigen Benutzern langsam. Ab 5 parallelen Anfragen bricht der Durchsatz ein.

vLLM: Maximaler Durchsatz für Teams

vLLM ist der Goldstandard für produktive LLM-Server. Continuous Batching ermöglicht 3–5x höheren Durchsatz als Ollama bei gleicher Hardware. Ideal für: Teams mit 10–50 Benutzern, API-Backend für Anwendungen.

# vllm_config.yaml – Produktiv-Konfiguration
server:
  model: "meta-llama/Llama-3.3-70B-Instruct"
  quantization: "awq"
  tensor_parallel_size: 2  # 2x A100
  max_model_len: 8192
  gpu_memory_utilization: 0.92
  port: 8000
  api_key: "sk-mittelstand-intern-2026"
  max_num_batched_tokens: 32768
  enable_prefix_caching: true

Die vLLM-Installationsanleitung beschreibt den Setup-Prozess im Detail. Stärken: PagedAttention für optimale Speichernutzung, Prefix Caching für RAG-Workloads. Schwächen: Nur NVIDIA-GPUs, komplexere Konfiguration als Ollama.

LocalAI: OpenAI-Drop-in ohne Code-Änderung

LocalAI emuliert die OpenAI-API vollständig, inklusive Embeddings, Whisper und Stable Diffusion. Bestehende Anwendungen, die gegen die OpenAI-API programmiert sind, funktionieren ohne Code-Änderung. Ideal für: Migration von Cloud zu On-Premise, polyglotte Setups.

Stärken: Unterstützt Text, Audio und Bild in einer Lösung. CPU-Fallback wenn keine GPU verfügbar. Schwächen: Geringerer Durchsatz als vLLM, Community-Projekt mit kleinerem Entwicklerteam.

llama.cpp: LLM auf Consumer-Hardware

llama.cpp ist die Low-Level-Lösung für minimale Hardware. Es läuft auf CPUs, Apple Silicon und sogar auf Raspberry Pi (für kleine Modelle). Ideal für: Edge-Geräte, alte Server ohne GPU, Embedded-Systeme.

Stärken: Läuft auf praktisch jeder Hardware, extrem geringe Abhängigkeiten (ein Binary). Schwächen: Kein OpenAI-kompatibles API (Drittlösung nötig), geringster Durchsatz, kein Batching.

Text Generation Inference: Enterprise-Skalierung

Hugging Faces TGI bietet Enterprise-Features: Token-Streaming, Prometheus-Metriken, Health Checks. Ideal für: Unternehmen mit bestehender Kubernetes-Infrastruktur, SLA-Anforderungen.

Stärken: Production-ready mit Monitoring, horizontal skalierbar, Speculative Decoding für 30 % mehr Speed. Schwächen: Höchster Konfigurationsaufwand, nur NVIDIA-GPUs.

Entscheidungsmatrix: Welche Lösung passt?

SzenarioEmpfehlungGrund
1–3 Benutzer, EinstiegOllama5 Minuten Setup, kein Vorwissen nötig
5–50 Benutzer, ProduktionvLLMBester Durchsatz, stabile API
Migration von OpenAILocalAINull Code-Änderungen
Kein GPU-Budgetllama.cppCPU-only möglich
Kubernetes, SLA-AnforderungTGIMonitoring, Skalierung

Hardware-Empfehlungen nach Budget

BudgetHardwareBeste LösungLeistung
2.400 €RTX 4090, 64 GB RAMOllama / vLLM8B-Modell, 65–95 Tok/s
4.800 €2x RTX 4090, 128 GB RAMvLLM70B-Modell, 25–35 Tok/s
18.000 €A100 80 GB, 256 GB RAMvLLM / TGI70B-Modell, 72–85 Tok/s
35.000 €2x A100, 512 GB RAMTGI (Kubernetes)70B, 50+ parallele User

Die ROI-Berechnungsvorlage hilft bei der Kalkulation der Amortisation gegenüber Cloud-APIs.

Sicherheit und DSGVO

Alle fünf Lösungen laufen lokal und senden keine Daten an externe Server. Für DSGVO-Konformität beachten Sie:

  • Zugangskontrolle: vLLM und TGI unterstützen API-Keys. Bei Ollama muss ein Reverse Proxy (nginx, Caddy) vorgeschaltet werden.
  • Logging: Protokollieren Sie, wer wann welche Anfrage gestellt hat. Alle Lösungen können Anfragen loggen.
  • Modellherkunft: Dokumentieren Sie, welches Modell mit welchen Trainingsdaten verwendet wird (AI Act Anforderung).
  • Verarbeitungsverzeichnis: Self-Hosted LLMs gehören ins DSGVO-Verarbeitungsverzeichnis, auch wenn keine Daten das Unternehmen verlassen.

Der KI-Komplett-Leitfaden beschreibt die rechtlichen Anforderungen an KI-Systeme im Detail.

Migration von Cloud zu On-Premise

Der Umstieg von OpenAI/Azure auf Self-Hosted dauert typischerweise 2–4 Wochen:

Woche 1: Hardware beschaffen, vLLM oder LocalAI installieren, Modell laden. Woche 2: Bestehende Anwendungen auf lokale API umstellen (bei LocalAI nur URL ändern). Woche 3: Parallel-Betrieb: Cloud und lokal gleichzeitig, Qualität vergleichen. Woche 4: Cloud abschalten, Monitoring einrichten.

Die KI-Implementierungsanleitung beschreibt den Migrationsprozess detailliert.

FAQ

Welche Lösung empfehlen Sie für den Einstieg? Ollama. Installation dauert 5 Minuten, das Ergebnis ist sofort sichtbar. Wenn Sie mit Ollama die Machbarkeit bestätigt haben, migrieren Sie für den Produktivbetrieb zu vLLM.

Kann ich mehrere Modelle gleichzeitig betreiben? Ja, vLLM und TGI unterstützen Multi-Model-Serving. Ollama lädt Modelle on-demand, was bei Modellwechsel 10–30 Sekunden Ladezeit verursacht. LocalAI kann ebenfalls mehrere Modelle parallel bedienen.

Wie viel VRAM brauche ich für ein 70B-Modell? In 4-Bit-Quantisierung (Q4_K_M): 42 GB VRAM. Eine RTX 4090 (24 GB) reicht nicht, Sie benötigen 2x RTX 4090 oder eine A100 mit 80 GB. In 8-Bit: 70 GB VRAM.

Sind Self-Hosted-Modelle schlechter als GPT-4? Für allgemeine Aufgaben ist GPT-4 überlegen. Für deutsche Fachtexte, Code-Generierung und strukturierte Ausgaben liefern fine-getunte Llama-3.3-Modelle vergleichbare Ergebnisse, insbesondere nach branchenspezifischem Fine-Tuning.

Was passiert bei einem Hardware-Defekt? Konfigurieren Sie ein automatisches Fallback auf eine Cloud-API (z. B. Azure OpenAI). Alle fünf Lösungen sind OpenAI-API-kompatibel, sodass ein URL-Wechsel genügt. Die GPU-Reparatur dauert typischerweise 3–5 Werktage.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)