Published on

OpenWebUI + Ollama: Firmen-ChatGPT in 30 Minuten

Authors

TL;DR

OpenWebUI kombiniert mit Ollama ergibt ein vollwertiges Firmen-ChatGPT: Multi-User-Verwaltung, Chat-Verlauf, RAG-Dokumentensuche und Modelauswahl. Das Docker-Compose-Setup steht in 30 Minuten. Kosten: €89/Monat für einen GPU-Server bei Hetzner statt €2.600/Monat für 50 ChatGPT-Team-Lizenzen. Alle Daten bleiben im Unternehmen.


Warum ein eigenes Firmen-ChatGPT aufsetzen?

ChatGPT Team kostet €52/Nutzer/Monat. Bei 50 Mitarbeitern sind das €2.600/Monat oder €31.200/Jahr. Dazu kommen Bedenken: Wo landen die Firmendaten? OpenAI speichert Konversationen auf US-Servern. Für DSGVO-sensible Unternehmen im Mittelstand ist das ein Risiko.

OpenWebUI + Ollama löst beide Probleme: Die Software ist kostenlos (Open Source), läuft auf Ihrem eigenen Server und sendet keine Daten nach außen. Die Benutzeroberfläche sieht aus und fühlt sich an wie ChatGPT. Mitarbeiter brauchen keine Umgewöhnung.

Kostenvergleich für 50 Mitarbeiter:

PositionChatGPT TeamOpenWebUI + Ollama
Monatliche Lizenz€2.600€0
Hosting (GPU-Server)€0€89
Wartung (2 Std./Monat)€0€150
Monatlich gesamt€2.600€239
Jährlich gesamt€31.200€2.868
Ersparnis€28.332/Jahr (91%)

Setup in 30 Minuten: Docker Compose

Voraussetzung: Ein Server mit Ubuntu 22.04 oder 24.04, Docker und Docker Compose installiert, NVIDIA GPU mit CUDA-Treiber. Die GPU-Konfiguration haben wir in einem separaten Artikel beschrieben.

# docker-compose.yml für OpenWebUI + Ollama
# Firmen-ChatGPT Setup

version: "3.8"

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: always
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - OLLAMA_NUM_PARALLEL=4
      - OLLAMA_MAX_LOADED_MODELS=2
      - OLLAMA_KEEP_ALIVE=30m

  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: openwebui
    restart: always
    ports:
      - "3000:8080"
    volumes:
      - openwebui_data:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
      - WEBUI_AUTH=true
      - WEBUI_SECRET_KEY=ihr-sicherer-schluessel-hier
      - DEFAULT_MODELS=llama3.1:8b
      - RAG_EMBEDDING_MODEL=nomic-embed-text
    depends_on:
      - ollama

volumes:
  ollama_data:
  openwebui_data:

# Nach dem Start:
# 1. docker compose up -d
# 2. docker exec ollama ollama pull llama3.1:8b
# 3. docker exec ollama ollama pull nomic-embed-text
# 4. Browser öffnen: http://server-ip:3000
# 5. Admin-Account anlegen (erster Benutzer = Admin)

Schritt 1: Docker Compose starten

Speichern Sie die Datei als docker-compose.yml und starten Sie mit docker compose up -d. Beide Container starten innerhalb von 30 Sekunden. Ollama läuft auf Port 11434, OpenWebUI auf Port 3000.

Schritt 2: Modelle herunterladen

Laden Sie mindestens ein Sprachmodell und das Embedding-Modell für RAG herunter. Llama 3.1 8B ist der beste Allrounder: 5,2 GB Download, läuft auf jeder GPU ab 8 GB VRAM. Für Code-Aufgaben ergänzen Sie CodeLlama 13B. Das Embedding-Modell nomic-embed-text benötigt nur 280 MB.

Schritt 3: Benutzer anlegen

Öffnen Sie http://server-ip:3000 im Browser. Der erste Benutzer wird automatisch Admin. Legen Sie weitere Benutzer manuell an oder aktivieren Sie die LDAP-Anbindung für Active Directory.

OpenWebUI unterstützt drei Rollen: Admin (volle Kontrolle), User (Chat und Dokumenten-Upload) und Pending (wartet auf Freischaltung). Für den Mittelstand empfehlen wir die Einstellung "Neue Benutzer müssen vom Admin freigeschaltet werden".

RAG-Dokumentensuche einrichten

OpenWebUI bringt RAG (Retrieval Augmented Generation) integriert mit. Mitarbeiter laden Dokumente hoch und stellen Fragen dazu. Das System findet die relevanten Passagen und generiert eine Antwort mit Quellenangabe.

Typische Anwendungen im Mittelstand:

  • Produktkatalog: Vertrieb fragt "Welches Produkt eignet sich für Temperatur über 200 Grad?"
  • QM-Handbuch: Fertigung fragt "Wie ist der Prüfplan für Bauteil X?"
  • Personalhandbuch: Mitarbeiter fragt "Wie beantrage ich Bildungsurlaub?"
  • Technische Dokumentation: Service fragt "Wie tausche ich das Ventil an Maschine Y?"

Für komplexere RAG-Setups mit tausenden Dokumenten empfehlen wir ChromaDB als externe Vektordatenbank.

Produktivbetrieb absichern

Für den Dauereinsatz im Unternehmen sind vier Anpassungen nötig:

1. SSL/TLS aktivieren: Setzen Sie Nginx als Reverse Proxy vor OpenWebUI und konfigurieren Sie Let's Encrypt oder Ihr Firmenzertifikat. Ohne HTTPS übertragen Mitarbeiter Firmeninhalte unverschlüsselt.

2. Backup einrichten: Die OpenWebUI-Daten (Chat-Verläufe, Benutzer, Dokumente) liegen im Docker-Volume openwebui_data. Sichern Sie dieses Volume täglich. Die Ollama-Modelle im Volume ollama_data müssen nicht gesichert werden (können neu heruntergeladen werden).

3. Ressourcen überwachen: GPU-Auslastung und RAM-Verbrauch im Blick behalten. Bei dauerhaft über 90% GPU-Auslastung entweder OLLAMA_NUM_PARALLEL reduzieren oder auf einen Cluster erweitern.

4. Modell-Updates planen: Neue Ollama-Versionen und Modelle erscheinen monatlich. Planen Sie ein monatliches Update-Fenster. docker compose pull && docker compose up -d aktualisiert beide Container.

Praxisbeispiel: Ingenieurbüro mit 35 Mitarbeitern

Ein Ingenieurbüro aus Hamburg nutzt OpenWebUI + Ollama seit Dezember 2025 als internes ChatGPT. 28 von 35 Mitarbeitern nutzen es aktiv. Die häufigsten Anwendungen: Technische Texte formulieren, Angebote strukturieren, E-Mails auf Englisch übersetzen und Normentexte zusammenfassen.

Vorher: 12 Mitarbeiter hatten ChatGPT Plus-Abos (€240/Monat gesamt). Die restlichen nutzten die kostenlose Version oder nichts.

Nachher: Alle 35 Mitarbeiter haben Zugang. Kosten: €89/Monat (Hetzner GPU-Server) + €75/Monat (Wartung durch IT-Werkstudent). Gesamtkosten €164/Monat statt €240/Monat bei besserer Abdeckung und DSGVO-Konformität. Der ROI ergab sich allein aus den eingesparten ChatGPT-Lizenzen.

Erweiterte Konfiguration

Eigene Modelfiles erstellen

Mit Ollama Modelfiles passen Sie das Verhalten der Modelle an Ihre Anforderungen an. Beispiel: Ein Modell, das immer auf Deutsch antwortet, einen professionellen Ton nutzt und Firmen-Terminologie kennt.

LDAP/Active Directory anbinden

OpenWebUI unterstützt LDAP-Authentifizierung. Mitarbeiter melden sich mit ihren Windows-Zugangsdaten an. Kein separates Passwort nötig. Die Konfiguration erfolgt über Umgebungsvariablen im Docker-Compose.

API-Zugang für Automatisierung

OpenWebUI bietet eine OpenAI-kompatible API. Bestehende Tools und Skripte, die die OpenAI API nutzen, funktionieren mit minimaler Anpassung: Nur die Base-URL ändern von api.openai.com auf ihr-server:3000/api. Damit lässt sich die KI-Integration in bestehende Workflows beschleunigen.

Häufige Probleme beim Setup

Problem: OpenWebUI zeigt keine Modelle an. Ursache: Ollama ist nicht erreichbar. Prüfen Sie, ob OLLAMA_BASE_URL korrekt gesetzt ist und ob der Ollama-Container läuft.

Problem: Langsame Antworten. Ursache: Kein GPU-Zugriff. Prüfen Sie mit docker exec ollama nvidia-smi, ob die GPU erkannt wird. Falls nicht: NVIDIA Container Toolkit installieren.

Problem: Benutzer können sich nicht anmelden. Ursache: WEBUI_AUTH=true erfordert Admin-Freischaltung. Prüfen Sie im Admin-Panel, ob neue Benutzer unter "Pending" warten.

FAQ

Wie viele Nutzer kann ein einzelner GPU-Server bedienen?

Mit einer RTX 4090 und Llama 3.1 8B bedienen Sie 15-20 gleichzeitige Nutzer ohne Wartezeiten. Bei 50 Mitarbeitern rechnen Sie mit 10-15 gleichzeitigen Nutzern, was eine GPU abdeckt.

Kann ich OpenWebUI auch ohne GPU betreiben?

Ja. Ollama läuft auch CPU-only. Die Antworten dauern dann 10-20 Sekunden statt 2-3 Sekunden. Für unter 10 Nutzer akzeptabel, darüber frustrierend.

Wie sichere ich den Server gegen unbefugten Zugriff?

Beschränken Sie den Zugang auf das Firmen-VPN. Konfigurieren Sie Nginx so, dass Port 3000 nur aus dem internen Netzwerk erreichbar ist. Aktivieren Sie HTTPS und starke Passwörter.

Können Mitarbeiter ihre Chat-Verläufe exportieren?

Ja. OpenWebUI bietet Export als Markdown oder JSON. Admins können alle Chat-Verläufe einsehen und exportieren. Datenschutz-Hinweis: Informieren Sie Mitarbeiter, dass Admins Zugang zu den Chats haben.

Wie aktualisiere ich Ollama und OpenWebUI?

docker compose pull && docker compose up -d aktualisiert beide Container. Die Daten bleiben in den Docker-Volumes erhalten. Planen Sie ein monatliches Update-Fenster von 5 Minuten ein.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)