vLLM Server einrichten: Schritt-für-Schritt für IT-Teams im Mittelstand

TL;DR

vLLM ist ein Open-Source-Inference-Server für LLMs, der durch PagedAttention bis zu 24x höheren Durchsatz als naive Implementierungen erreicht. Diese Anleitung zeigt die Installation auf Ubuntu mit NVIDIA-GPU, die Konfiguration für deutsche Open-Source-Modelle und den ersten API-Call — alles DSGVO-konform auf eigener Hardware. Zeitaufwand: circa 30 Minuten bis zum laufenden Server.

Warum vLLM statt Ollama oder LiteLLM?

Wer LLMs im Unternehmen betreiben will, kennt vermutlich bereits Ollama. Ollama ist ideal zum Einstieg. Aber ab 10+ gleichzeitigen Nutzern stößt es an Grenzen.

vLLM löst genau dieses Problem. Der Server nutzt PagedAttention — eine Technik, die GPU-Speicher so effizient verwaltet wie ein Betriebssystem den Arbeitsspeicher. Das Ergebnis: Mehr parallele Anfragen bei gleicher Hardware.

Drei Szenarien, in denen wir vLLM empfehlen:

Mehrere Abteilungen greifen gleichzeitig auf ein Modell zu (Vertrieb, Support, Einkauf)
API-First-Ansatz — Sie wollen LLM-Funktionalität in bestehende Software integrieren
Hoher Durchsatz — Batch-Verarbeitung von Dokumenten, E-Mails oder Anfragen

Für ein einzelnes Team mit 3-5 Nutzern? Da reicht Ollama. Kein Grund, die Komplexität hochzufahren.

Voraussetzungen prüfen

Bevor Sie loslegen, brauchen Sie diese Hardware:

GPU: NVIDIA mit mindestens 16 GB VRAM (A100, L40S, RTX 4090 oder RTX A6000)
RAM: Mindestens 32 GB
Storage: 50 GB freier Speicher für Modelle
OS: Ubuntu 22.04 oder 24.04

Unsere Erfahrung zeigt: Eine einzelne RTX 4090 mit 24 GB VRAM reicht für Modelle bis 13B Parameter im Produktivbetrieb. Für 70B-Modelle brauchen Sie mindestens zwei GPUs oder eine A100 mit 80 GB. Den passenden GPU-Server-Guide haben wir separat aufbereitet.

Prüfen Sie zuerst, ob CUDA korrekt installiert ist:

# CUDA-Version prüfen
nvidia-smi

# Erwartete Ausgabe: CUDA Version 12.x und Ihre GPU(s)

Falls nvidia-smi nicht funktioniert, installieren Sie zuerst die NVIDIA-Treiber. Das dauert 10 Minuten und ist in unserer Ollama-Anleitung im Abschnitt GPU-Setup beschrieben.

Installation in 5 Minuten

Wir empfehlen die Installation per pip in einer virtuellen Umgebung. Docker geht auch — aber pip gibt Ihnen mehr Kontrolle über CUDA-Versionen und erleichtert das Debugging.

# Python-Umgebung erstellen
python3 -m venv /opt/vllm-env
source /opt/vllm-env/bin/activate

# vLLM installieren (aktuelle Version: 0.7.x)
pip install vllm

# Installation prüfen
python -c "import vllm; print(vllm.__version__)"

Das war es. Keine Docker-Container, keine Kubernetes-Cluster. Ein pip-Befehl.

Alternativ per Docker, falls Ihre IT-Abteilung Container bevorzugt:

docker run --runtime nvidia --gpus all \
  -v /data/models:/root/.cache/huggingface \
  -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model mistralai/Mistral-7B-Instruct-v0.3

Server starten und konfigurieren

Jetzt wird es konkret. vLLM bietet eine OpenAI-kompatible API — das heißt, jedes Tool das mit der OpenAI API funktioniert, funktioniert auch mit Ihrem lokalen vLLM-Server.

# Server starten mit deutschem Open-Source-Modell
python -m vllm.entrypoints.openai.api_server \
  --model mistralai/Mistral-7B-Instruct-v0.3 \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90 \
  --dtype auto

Die wichtigsten Parameter im Überblick:

Parameter	Empfehlung	Warum
`--gpu-memory-utilization`	0.85-0.95	Lässt Puffer für CUDA-Overhead
`--max-model-len`	8192-32768	Je nach Use Case; Kundenservice braucht weniger als Dokumentenanalyse
`--dtype`	`auto`	Wählt automatisch bfloat16 auf Ampere+ GPUs

Welches Modell für welchen Zweck? Mistral 7B reicht für Zusammenfassungen, E-Mail-Entwürfe und einfache Klassifikation. Für komplexe Dokumentenanalyse oder Code-Generierung greifen Sie besser zu Mixtral 8x7B oder Llama 3.1 70B.

Erster API-Call testen

Der Server läuft. Zeit für den ersten Test. Das Schöne an der OpenAI-kompatiblen API: Sie können das Python-SDK direkt verwenden.

from openai import OpenAI

# Verbindung zum lokalen vLLM-Server
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="nicht-relevant"  # vLLM braucht keinen echten Key
)

# Anfrage senden
antwort = client.chat.completions.create(
    model="mistralai/Mistral-7B-Instruct-v0.3",
    messages=[
        {"role": "system", "content": "Du bist ein Assistent für ein deutsches Unternehmen."},
        {"role": "user", "content": "Fasse diese Reklamation zusammen: Der Kunde beschwert sich über eine verspätete Lieferung der Bestellung #4711. Die Ware kam 5 Tage zu spät und teilweise beschädigt an."}
    ],
    temperature=0.3,
    max_tokens=200
)

print(antwort.choices[0].message.content)

Oder kurz per curl testen:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mistralai/Mistral-7B-Instruct-v0.3",
    "messages": [{"role": "user", "content": "Was ist Predictive Maintenance?"}],
    "temperature": 0.3
  }'

Wenn hier eine JSON-Antwort zurückkommt, läuft Ihr LLM-Server.

Produktivbetrieb absichern

Ein laufender Server ist noch kein Produktivsystem. Diese drei Punkte sollten Sie vor dem Rollout klären.

Reverse Proxy mit nginx: Setzen Sie vLLM niemals direkt ins Netz. Ein nginx-Proxy davor regelt TLS-Terminierung und Rate Limiting. Wir raten davon ab, den Port 8000 direkt freizugeben — auch im internen Netz.

Systemd-Service erstellen, damit vLLM nach einem Neustart automatisch startet:

# /etc/systemd/system/vllm.service
[Unit]
Description=vLLM Inference Server
After=network.target

[Service]
Type=simple
User=vllm
ExecStart=/opt/vllm-env/bin/python -m vllm.entrypoints.openai.api_server \
  --model mistralai/Mistral-7B-Instruct-v0.3 \
  --host 127.0.0.1 --port 8000 \
  --gpu-memory-utilization 0.90
Restart=always
RestartSec=10

[Install]
WantedBy=multi-user.target

Monitoring: vLLM exportiert Prometheus-Metriken auf /metrics. Tracken Sie vllm:num_requests_running und vllm:gpu_cache_usage_perc — wenn der Cache über 95% liegt, wird es eng.

API-Key-Authentifizierung: Ab vLLM 0.6+ können Sie mit --api-key mein-geheimer-key den Zugriff absichern. Klingt trivial, wird aber regelmäßig vergessen. Ohne API-Key kann jeder im Netzwerk Anfragen senden — und damit GPU-Ressourcen verbrauchen.

Welches Modell für welchen Einsatz?

Die Modellwahl hängt vom konkreten Use Case ab. Hier unsere Empfehlung aus der Praxis:

Für Kundenservice und E-Mail-Verarbeitung reicht Mistral 7B Instruct. Das Modell antwortet schnell, versteht deutsche Anfragen zuverlässig und läuft auf einer einzelnen GPU mit 16 GB VRAM. Bei einem Automobilzulieferer aus Baden-Württemberg haben wir damit 400+ Support-Anfragen pro Tag klassifiziert.

Für Dokumentenanalyse und Vertragsextraktion brauchen Sie mehr Kapazität. Mixtral 8x7B oder Llama 3.1 70B liefern deutlich bessere Ergebnisse bei komplexen Texten. Der Nachteil: 70B-Modelle benötigen Tensor Parallelism über mehrere GPUs. Die Konfiguration ist aufwändiger, aber vLLM unterstützt das nativ mit --tensor-parallel-size 2.

Für Code-Generierung und technische Dokumentation empfehlen wir DeepSeek Coder V2 oder Codestral. Diese Modelle verstehen technische Kontexte besser als General-Purpose-Modelle.

Unsere Faustregel: Starten Sie mit dem kleinsten Modell, das Ihren Qualitätsanspruch erfüllt. Größer ist nicht automatisch besser — und kostet mehr GPU-Speicher, der für parallele Anfragen fehlt.

Nächster Schritt: Frontend und RAG

Ein API-Server allein bringt Fachabteilungen wenig. Für eine Chat-Oberfläche empfehlen wir Open WebUI, das sich direkt an die OpenAI-kompatible API von vLLM anbinden lässt. Damit bekommen Ihre Mitarbeiter eine ChatGPT-ähnliche Oberfläche — komplett auf eigener Infrastruktur.

Häufig gestellte Fragen

Was kostet ein vLLM-Setup für den Mittelstand? Die Software selbst ist kostenlos (Apache 2.0 Lizenz). Die Hauptkosten liegen bei der GPU-Hardware: Eine NVIDIA RTX 4090 kostet ca. 1.800 EUR, ein kompletter Server mit A100 liegt bei 15.000-25.000 EUR. Dazu kommen Stromkosten von ca. 150-300 EUR pro Monat je nach GPU-Auslastung.

vLLM oder Ollama — was ist besser? Kommt auf den Use Case an. Ollama ist einfacher zu installieren und ideal für kleine Teams (unter 10 Nutzer). vLLM bietet deutlich höheren Durchsatz bei vielen parallelen Anfragen und eine produktionsreife API. Für Enterprise-Setups mit mehreren Abteilungen empfehlen wir vLLM.

Ist vLLM DSGVO-konform? Ja, weil alle Daten auf Ihrer eigenen Hardware bleiben. Es gibt keine Verbindung zu externen Servern während der Inference. Die Modelle werden einmalig von Hugging Face heruntergeladen — danach läuft alles offline. Stellen Sie sicher, dass die Modell-Lizenz kommerzielle Nutzung erlaubt.

Welche GPU brauche ich mindestens? Für ein 7B-Modell im Produktivbetrieb reicht eine NVIDIA GPU mit 16 GB VRAM (z.B. RTX A4000 oder T4). Für 13B-Modelle empfehlen wir 24 GB VRAM (RTX 4090). Modelle mit 70B Parametern benötigen 2x A100 80GB oder vergleichbare Hardware.

Kann ich vLLM mit bestehenden Anwendungen verbinden? Ja. Die OpenAI-kompatible API bedeutet, dass jede Software, die mit GPT-4 oder GPT-3.5 kommuniziert, ohne Code-Änderungen auf Ihren lokalen vLLM-Server umgestellt werden kann. Sie ändern nur die Base-URL von api.openai.com auf Ihren Server.

Fazit und nächster Schritt

vLLM ist der schnellste Weg, LLMs im Mittelstand produktiv zu betreiben — ohne Cloud-Abhängigkeit, ohne laufende API-Kosten. Mit dieser Anleitung haben Sie in 30 Minuten einen funktionsfähigen Server. Testen Sie den KI-ROI-Rechner, um den Business Case für Self-Hosted LLMs in Ihrem Unternehmen zu kalkulieren.

vLLM Server einrichten: Deutsch-Anleitung 2026