Published on

KI-Gateway: Multi-Tenant LLM-Zugang verwalten

Authors

TL;DR

Ein KI-Gateway routet alle LLM-Anfragen im Unternehmen über einen zentralen Proxy. Damit tracken Sie Kosten pro Abteilung, setzen Rate Limits gegen unkontrollierte API-Ausgaben und wechseln LLM-Anbieter ohne Code-Änderungen. Drei Mittelständler berichten: 28–40 % niedrigere API-Kosten durch zentrales Caching und intelligentes Routing.


Das Problem: Wildwuchs bei LLM-Zugängen

Marketing nutzt GPT-4o, die Entwicklung experimentiert mit Claude, der Kundenservice testet Gemini. Jede Abteilung hat eigene API-Keys, eigene Budgets, keine Übersicht. Am Monatsende kommt die Rechnung: €4.200 statt der geplanten €1.800.

Dieses Szenario erleben Mittelständler, die KI dezentral einführen. Ohne zentrale Steuerung explodieren die Kosten, und niemand weiß, welche Abteilung wie viel verbraucht. Ein KI-Gateway löst dieses Problem durch einen einzigen Zugangspunkt für alle LLM-Anfragen.

Architektur: So funktioniert ein KI-Gateway

Das Gateway sitzt zwischen den internen Anwendungen und den LLM-APIs. Jede Anfrage durchläuft vier Stufen:

  1. Authentifizierung: Welche Abteilung fragt an? Ist der API-Key gültig?
  2. Routing: Welches Modell ist für diesen Use Case konfiguriert?
  3. Caching: Wurde eine identische Anfrage bereits gestellt?
  4. Logging: Token-Verbrauch, Latenz und Kosten pro Request.
# KI-Gateway Konfiguration (LiteLLM Proxy)
model_list:
  - model_name: "gpt-4o"
    litellm_params:
      model: "azure/gpt-4o"
      api_base: "https://mein-unternehmen.openai.azure.com"
      api_key: "os.environ/AZURE_API_KEY"
      rpm: 60  # Rate Limit: 60 Requests/Minute
  - model_name: "claude-sonnet"
    litellm_params:
      model: "anthropic/claude-sonnet-4-20250514"
      api_key: "os.environ/ANTHROPIC_KEY"
      rpm: 40
  - model_name: "llama-local"
    litellm_params:
      model: "ollama/llama3.1:70b"
      api_base: "http://gpu-server:11434"
      rpm: 100

general_settings:
  master_key: "sk-gateway-master"
  database_url: "postgresql://gateway:pw@db:5432/litellm"
  cache: true
  cache_ttl: 3600

Kosten-Tracking pro Abteilung

Das Gateway weist jeder Anfrage eine Kostenstelle zu. Am Monatsende sehen Sie exakt:

AbteilungModellRequestsTokenKosten
MarketingGPT-4o12.4008,2 Mio€246
EntwicklungClaude Sonnet8.1005,1 Mio€178
KundenserviceLlama-local34.20022 Mio€0 (Self-Hosted)
VertriebGPT-4o3.8002,4 Mio€72

Der Kundenservice spart €1.200/Monat, weil Standardanfragen über das lokale Llama-Modell geroutet werden. Nur komplexe Fälle gehen an GPT-4o. Diese Routing-Logik konfigurieren Sie im Gateway – ohne Code-Änderungen in der Anwendung.

Caching: 28 % weniger API-Kosten

Viele LLM-Anfragen in Unternehmen sind repetitiv. Produktbeschreibungen, Standard-E-Mails, FAQ-Antworten – die gleiche Anfrage kommt mehrfach pro Tag. Das Gateway erkennt identische Prompts und liefert die gecachte Antwort in unter 10 ms statt 800 ms.

Ein Großhändler mit 45 Mitarbeitern aktivierte Semantic Caching und reduzierte seine monatlichen API-Kosten von €1.800 auf €1.296 – eine Ersparnis von 28 % ohne Qualitätsverlust. Details zur Kostenplanung für KI-Infrastruktur finden Sie im Budget-Guide.

Fallback und Modell-Wechsel

Ein weiterer Vorteil: Fällt ein LLM-Anbieter aus oder erhöht die Preise, wechseln Sie im Gateway die Konfiguration. Alle Anwendungen nutzen weiterhin den gleichen Endpoint. Kein Deployment, kein Code-Review, kein Rollout.

Typisches Szenario: OpenAI erhöht die Preise um 20 %. Innerhalb einer Stunde routen Sie alle nicht-kritischen Anfragen auf Claude oder ein lokales Modell. Die Vendor-Lock-in-Strategie wird damit operativ umgesetzt.

Setup: LiteLLM Proxy in 30 Minuten

LiteLLM ist der Standard für KI-Gateways im Mittelstand: Open Source, DSGVO-konform bei Self-Hosting, und unterstützt über 100 LLM-Anbieter.

Die Installation läuft über Docker. Voraussetzungen: Ein Linux-Server mit 2 vCPU, 4 GB RAM und einer PostgreSQL-Datenbank für das Logging. Monatliche Infrastrukturkosten: €30–€50.

Nach dem Setup erstellen Sie pro Abteilung einen API-Key mit Budget-Limit. Marketing bekommt €300/Monat, Entwicklung €500/Monat. Wird das Limit erreicht, werden Anfragen gedrosselt statt abgelehnt – der Betrieb läuft weiter, aber mit dem günstigeren Modell.

Sicherheit und Compliance

Das Gateway protokolliert jede Anfrage mit Zeitstempel, Abteilung und Token-Verbrauch. Für den EU AI Act liefert das die erforderliche Transparenz über KI-Nutzung im Unternehmen. Personenbezogene Daten in Prompts können durch PII-Filter automatisch maskiert werden, bevor sie an externe APIs gehen.

Häufige Fragen

Verlangsamt das Gateway die LLM-Antworten?

Der Overhead liegt bei 5–15 ms pro Request. Bei typischen LLM-Antwortzeiten von 500–2.000 ms ist das vernachlässigbar. Gecachte Antworten sind sogar 50x schneller als direkte API-Calls.

Kann ich auch lokale Modelle über das Gateway routen?

Ja. LiteLLM unterstützt Ollama, vLLM, TGI und jeden OpenAI-kompatiblen Endpoint. Das ermöglicht hybride Setups: sensible Daten lokal, alles andere über Cloud-APIs.

Was kostet ein KI-Gateway im Betrieb?

Die Infrastruktur kostet €30–€50/Monat. Die Einsparung durch Caching und intelligentes Routing liegt typischerweise bei €400–€1.200/Monat. Der ROI ist nach dem ersten Monat positiv.

Brauche ich ein Gateway bei nur einem LLM-Anbieter?

Ja, allein wegen Kosten-Tracking und Rate Limiting. Ohne Gateway haben Sie keine Kontrolle, welche Abteilung wie viel ausgibt. Mit dem ROI-Rechner können Sie den Business Case vorab kalkulieren.

Wie schwierig ist die Migration bestehender Anwendungen?

Minimal. Ihre Anwendungen ändern nur die API-Base-URL auf den Gateway-Endpoint. Die Anfrage-Formate bleiben identisch. Die Migration dauert pro Anwendung 15–30 Minuten.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)