Published on

LiteLLM Proxy: Mehrere LLMs zentral verwalten

Authors

LiteLLM Proxy einrichten: Alle LLMs über eine einzige API steuern

TL;DR

LiteLLM Proxy stellt eine einheitliche OpenAI-kompatible API vor mehrere LLM-Provider -- OpenAI, Anthropic, Mistral, lokale Ollama-Modelle. Teams im Mittelstand sparen damit 30-40% API-Kosten durch intelligentes Routing und behalten über ein Dashboard die Kontrolle über Nutzung und Budget. Setup dauert unter einer Stunde, die Software ist Open Source.


Das Problem mit 5 verschiedenen API-Keys

Kennen Sie das? Die Entwicklungsabteilung nutzt GPT-4o, der Kundenservice testet Claude, das Marketing experimentiert mit Mistral -- und jedes Team hat eigene API-Keys, eigene Abrechnungen, eigene Integrationen. Ende des Monats landen 4 verschiedene Rechnungen auf dem Tisch und niemand weiß, welche Abteilung wie viel verbraucht hat.

Bei einem Maschinenbau-Unternehmen mit 120 Mitarbeitern haben wir genau dieses Szenario gesehen: 3 Teams, 5 LLM-Anbieter, monatliche Gesamtkosten von 4.800 EUR -- ohne jede Transparenz, welches Modell welchen Mehrwert liefert.

LiteLLM löst das. Ein Proxy, eine API, ein Dashboard.

Was LiteLLM technisch macht

LiteLLM ist ein Open-Source-Proxy (MIT-Lizenz), der als Zwischenschicht zwischen Ihren Anwendungen und den LLM-Providern sitzt. Jede Anwendung spricht die OpenAI-API -- egal ob das Backend tatsächlich OpenAI, Anthropic, Azure OpenAI, Mistral oder ein lokales Ollama-Modell ist.

Der Proxy kann:

  • Routing: Anfragen je nach Modellname an den richtigen Provider weiterleiten
  • Fallback: Wenn OpenAI ausfällt, automatisch auf Anthropic oder Ollama umschalten
  • Rate Limiting: Budget-Obergrenzen pro Team oder API-Key setzen
  • Logging: Jede Anfrage mit Tokens, Kosten und Latenz protokollieren
  • Caching: Identische Anfragen aus dem Cache beantworten (spart 15-25% der Kosten)
# litellm_config.yaml - Beispielkonfiguration
model_list:
  - model_name: gpt-4o
    litellm_params:
      model: openai/gpt-4o
      api_key: os.environ/OPENAI_API_KEY
      max_budget: 500  # EUR pro Monat

  - model_name: claude-sonnet
    litellm_params:
      model: anthropic/claude-sonnet-4-20250514
      api_key: os.environ/ANTHROPIC_API_KEY
      max_budget: 300

  - model_name: lokales-modell
    litellm_params:
      model: ollama/llama3.1:70b
      api_base: http://gpu-server.intern:11434
      # Kein API-Key nötig, kein Budget-Limit (eigene Hardware)

  - model_name: gpt-4o  # Fallback-Konfiguration
    litellm_params:
      model: anthropic/claude-sonnet-4-20250514
      api_key: os.environ/ANTHROPIC_API_KEY

router_settings:
  routing_strategy: "cost-based"  # günstigstes verfügbares Modell zuerst
  enable_caching: true
  cache_ttl: 3600  # 1 Stunde

general_settings:
  master_key: os.environ/LITELLM_MASTER_KEY
  database_url: os.environ/LITELLM_DB_URL  # PostgreSQL für Logging

Setup in unter 60 Minuten

Voraussetzung: Ein Linux-Server (oder Docker-Host) mit 2 CPU-Cores und 4 GB RAM. LiteLLM selbst braucht keine GPU -- die Inferenz läuft ja bei den Providern oder auf Ihrem separaten Ollama-Server.

# Installation via Docker (empfohlen)
docker run -d \
  --name litellm-proxy \
  -p 4000:4000 \
  -v /pfad/zu/litellm_config.yaml:/app/config.yaml \
  -e OPENAI_API_KEY="sk-..." \
  -e ANTHROPIC_API_KEY="sk-ant-..." \
  -e LITELLM_MASTER_KEY="sk-eigener-key" \
  -e LITELLM_DB_URL="postgresql://user:pass@db:5432/litellm" \
  ghcr.io/berriai/litellm:main-latest \
  --config /app/config.yaml

# Test: Anfrage über den Proxy
curl http://localhost:4000/v1/chat/completions \
  -H "Authorization: Bearer sk-eigener-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "messages": [{"role": "user", "content": "Hallo!"}]
  }'

Nach dem Start ist das Web-Dashboard unter http://localhost:4000/ui erreichbar. Dort legen Sie API-Keys für einzelne Teams an, setzen Budget-Limits und sehen in Echtzeit, wer welches Modell wie intensiv nutzt.

Kostenersparnis: Wo die 30-40% herkommen

Die Einsparung entsteht an drei Stellen:

Intelligentes Routing (10-15%). Nicht jede Anfrage braucht GPT-4o. Ein simples Zusammenfassungs-Request kann genauso gut ein günstigeres Modell beantworten. LiteLLM kann Anfragen basierend auf Kosten, Latenz oder Modellqualität routen. GPT-4o kostet 2,50 USD pro 1M Input-Tokens, Anthropic Haiku liegt bei 0,25 USD.

Caching (15-25%). In einem typischen Unternehmensumfeld sind 20-30% der Anfragen wiederkehrend: dieselben Vorlagenergänzungen, dieselben Übersetzungen. LiteLLM cached die Antworten automatisch.

Budget-Kontrolle (5-10%). Ohne Limits nutzen Teams LLMs großzügig. Mit einem monatlichen Budget von 200 EUR pro Team überlegen Mitarbeiter zweimal, ob sie eine Anfrage wirklich brauchen. Das ist kein technischer Hebel, aber ein organisatorischer.

Einen Maschinenbauer aus Baden-Württemberg konnten wir von 4.800 EUR/Monat auf 2.900 EUR/Monat bringen -- 40% Ersparnis ohne Funktionsverlust. Die vollständige Kostenplanung für KI im Unternehmen haben wir in einem separaten Artikel aufbereitet.

Fallstricke, die wir in der Praxis sehen

Datenschutz nicht vergessen. Der Proxy loggt standardmäßig alle Anfragen in die PostgreSQL-Datenbank -- inklusive der Prompts. Wenn Mitarbeiter sensible Unternehmensdaten an LLMs senden, liegen diese Daten dann auch im Log. Konfigurieren Sie store_prompts: false in der Config oder sorgen Sie dafür, dass die Datenbank genauso geschützt ist wie ein CRM-System.

Latenz-Overhead. Der Proxy fügt 10-30ms Latenz hinzu. Für Chatbot-Anwendungen irrelevant, für Echtzeit-Streaming kann es spürbar werden. Wir raten davon ab, LiteLLM für latenz-kritische Anwendungen unter 100ms Gesamtlatenz einzusetzen.

Updates. LiteLLM entwickelt sich schnell -- Release-Zyklen von 1-2 Wochen. Das bedeutet: Regelmäßige Updates sind nötig, weil neue Provider-APIs sonst nicht unterstützt werden. Planen Sie monatliche Wartungsfenster ein.

Für den breiteren Kontext empfehlen wir unseren KI-Leitfaden für Unternehmen, der auch Governance-Aspekte abdeckt.

LiteLLM vs. eigener Nginx-Reverse-Proxy

Manche IT-Teams bauen lieber selbst. Verständlich. Aber der Eigenaufwand wird unterschätzt.

Ein simpler Nginx-Reverse-Proxy kann Anfragen an verschiedene Backends weiterleiten. Was er nicht kann: OpenAI-API auf Anthropic-API mappen, Token-Zählung über verschiedene Provider vereinheitlichen, Budget-Limits pro Key setzen, automatische Fallbacks bei Provider-Ausfall. All das müssten Sie selbst implementieren.

Unsere Empfehlung: Nutzen Sie LiteLLM für den Standard-Fall. Nur wenn Sie sehr spezielle Anforderungen haben (eigene Authentifizierung, Integration in ein bestehendes API-Gateway wie Kong oder Traefik), lohnt sich eine Custom-Lösung.

Häufig gestellte Fragen

Was kostet LiteLLM? LiteLLM ist Open Source (MIT-Lizenz) und kostenlos. Es gibt eine Enterprise-Version mit SSO, Audit-Logging und Premium-Support für 3.000-8.000 USD/Jahr. Für die meisten Mittelständler reicht die Open-Source-Version. Die Kosten beschränken sich auf den Server (50-100 EUR/Monat) und die LLM-Provider-Gebühren.

Kann ich LiteLLM mit Ollama kombinieren? Ja, das ist eine der Stärken. Sie definieren in der Config ein lokales Ollama-Modell als Backend. LiteLLM routet dann beispielsweise interne Anfragen an Ollama (kostenlos, DSGVO-konform) und nur externe Kundenanfragen an GPT-4o. Das spart erheblich Kosten.

Wie sicher ist der Proxy? LiteLLM unterstützt API-Key-Authentifizierung, IP-Whitelisting und optionale Verschlüsselung. Für DSGVO-Konformität empfehlen wir: Proxy auf eigenem Server in Deutschland hosten, Prompt-Logging deaktivieren oder verschlüsseln, und Zugriffsrechte über separate API-Keys pro Team steuern.

Funktioniert LiteLLM auch mit Azure OpenAI? Ja. Azure OpenAI wird nativ unterstützt, inklusive der spezifischen API-Version und Deployment-Namen. Sie können sogar zwischen OpenAI direkt und Azure OpenAI als Fallback wechseln, was die Verfügbarkeit auf nahezu 100% erhöht.

Wie viele gleichzeitige Anfragen schafft LiteLLM? Mit der Standard-Konfiguration auf einem 2-Core-Server verarbeitet LiteLLM 200-300 Anfragen pro Sekunde. Für die meisten Mittelständler (10-50 gleichzeitige Nutzer) ist das mehr als ausreichend. Bei höherem Bedarf skalieren Sie horizontal mit mehreren Proxy-Instanzen hinter einem Load Balancer.


Nächster Schritt

Starten Sie mit der Docker-Installation auf einem Testserver und binden Sie zunächst nur ein LLM-Backend an. Sobald das funktioniert, fügen Sie weitere Provider und Teams hinzu. Der KI-Implementierungsleitfaden hilft Ihnen beim strukturierten Rollout.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)