- Published on
OpenWebUI + Ollama: Firmen-ChatGPT in 30 Minuten
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
OpenWebUI kombiniert mit Ollama ergibt ein vollwertiges Firmen-ChatGPT: Multi-User-Verwaltung, Chat-Verlauf, RAG-Dokumentensuche und Modelauswahl. Das Docker-Compose-Setup steht in 30 Minuten. Kosten: €89/Monat für einen GPU-Server bei Hetzner statt €2.600/Monat für 50 ChatGPT-Team-Lizenzen. Alle Daten bleiben im Unternehmen.
Warum ein eigenes Firmen-ChatGPT aufsetzen?
ChatGPT Team kostet €52/Nutzer/Monat. Bei 50 Mitarbeitern sind das €2.600/Monat oder €31.200/Jahr. Dazu kommen Bedenken: Wo landen die Firmendaten? OpenAI speichert Konversationen auf US-Servern. Für DSGVO-sensible Unternehmen im Mittelstand ist das ein Risiko.
OpenWebUI + Ollama löst beide Probleme: Die Software ist kostenlos (Open Source), läuft auf Ihrem eigenen Server und sendet keine Daten nach außen. Die Benutzeroberfläche sieht aus und fühlt sich an wie ChatGPT. Mitarbeiter brauchen keine Umgewöhnung.
Kostenvergleich für 50 Mitarbeiter:
| Position | ChatGPT Team | OpenWebUI + Ollama |
|---|---|---|
| Monatliche Lizenz | €2.600 | €0 |
| Hosting (GPU-Server) | €0 | €89 |
| Wartung (2 Std./Monat) | €0 | €150 |
| Monatlich gesamt | €2.600 | €239 |
| Jährlich gesamt | €31.200 | €2.868 |
| Ersparnis | €28.332/Jahr (91%) |
Setup in 30 Minuten: Docker Compose
Voraussetzung: Ein Server mit Ubuntu 22.04 oder 24.04, Docker und Docker Compose installiert, NVIDIA GPU mit CUDA-Treiber. Die GPU-Konfiguration haben wir in einem separaten Artikel beschrieben.
# docker-compose.yml für OpenWebUI + Ollama
# Firmen-ChatGPT Setup
version: "3.8"
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
restart: always
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
environment:
- OLLAMA_NUM_PARALLEL=4
- OLLAMA_MAX_LOADED_MODELS=2
- OLLAMA_KEEP_ALIVE=30m
openwebui:
image: ghcr.io/open-webui/open-webui:main
container_name: openwebui
restart: always
ports:
- "3000:8080"
volumes:
- openwebui_data:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://ollama:11434
- WEBUI_AUTH=true
- WEBUI_SECRET_KEY=ihr-sicherer-schluessel-hier
- DEFAULT_MODELS=llama3.1:8b
- RAG_EMBEDDING_MODEL=nomic-embed-text
depends_on:
- ollama
volumes:
ollama_data:
openwebui_data:
# Nach dem Start:
# 1. docker compose up -d
# 2. docker exec ollama ollama pull llama3.1:8b
# 3. docker exec ollama ollama pull nomic-embed-text
# 4. Browser öffnen: http://server-ip:3000
# 5. Admin-Account anlegen (erster Benutzer = Admin)
Schritt 1: Docker Compose starten
Speichern Sie die Datei als docker-compose.yml und starten Sie mit docker compose up -d. Beide Container starten innerhalb von 30 Sekunden. Ollama läuft auf Port 11434, OpenWebUI auf Port 3000.
Schritt 2: Modelle herunterladen
Laden Sie mindestens ein Sprachmodell und das Embedding-Modell für RAG herunter. Llama 3.1 8B ist der beste Allrounder: 5,2 GB Download, läuft auf jeder GPU ab 8 GB VRAM. Für Code-Aufgaben ergänzen Sie CodeLlama 13B. Das Embedding-Modell nomic-embed-text benötigt nur 280 MB.
Schritt 3: Benutzer anlegen
Öffnen Sie http://server-ip:3000 im Browser. Der erste Benutzer wird automatisch Admin. Legen Sie weitere Benutzer manuell an oder aktivieren Sie die LDAP-Anbindung für Active Directory.
OpenWebUI unterstützt drei Rollen: Admin (volle Kontrolle), User (Chat und Dokumenten-Upload) und Pending (wartet auf Freischaltung). Für den Mittelstand empfehlen wir die Einstellung "Neue Benutzer müssen vom Admin freigeschaltet werden".
RAG-Dokumentensuche einrichten
OpenWebUI bringt RAG (Retrieval Augmented Generation) integriert mit. Mitarbeiter laden Dokumente hoch und stellen Fragen dazu. Das System findet die relevanten Passagen und generiert eine Antwort mit Quellenangabe.
Typische Anwendungen im Mittelstand:
- Produktkatalog: Vertrieb fragt "Welches Produkt eignet sich für Temperatur über 200 Grad?"
- QM-Handbuch: Fertigung fragt "Wie ist der Prüfplan für Bauteil X?"
- Personalhandbuch: Mitarbeiter fragt "Wie beantrage ich Bildungsurlaub?"
- Technische Dokumentation: Service fragt "Wie tausche ich das Ventil an Maschine Y?"
Für komplexere RAG-Setups mit tausenden Dokumenten empfehlen wir ChromaDB als externe Vektordatenbank.
Produktivbetrieb absichern
Für den Dauereinsatz im Unternehmen sind vier Anpassungen nötig:
1. SSL/TLS aktivieren: Setzen Sie Nginx als Reverse Proxy vor OpenWebUI und konfigurieren Sie Let's Encrypt oder Ihr Firmenzertifikat. Ohne HTTPS übertragen Mitarbeiter Firmeninhalte unverschlüsselt.
2. Backup einrichten: Die OpenWebUI-Daten (Chat-Verläufe, Benutzer, Dokumente) liegen im Docker-Volume openwebui_data. Sichern Sie dieses Volume täglich. Die Ollama-Modelle im Volume ollama_data müssen nicht gesichert werden (können neu heruntergeladen werden).
3. Ressourcen überwachen: GPU-Auslastung und RAM-Verbrauch im Blick behalten. Bei dauerhaft über 90% GPU-Auslastung entweder OLLAMA_NUM_PARALLEL reduzieren oder auf einen Cluster erweitern.
4. Modell-Updates planen: Neue Ollama-Versionen und Modelle erscheinen monatlich. Planen Sie ein monatliches Update-Fenster. docker compose pull && docker compose up -d aktualisiert beide Container.
Praxisbeispiel: Ingenieurbüro mit 35 Mitarbeitern
Ein Ingenieurbüro aus Hamburg nutzt OpenWebUI + Ollama seit Dezember 2025 als internes ChatGPT. 28 von 35 Mitarbeitern nutzen es aktiv. Die häufigsten Anwendungen: Technische Texte formulieren, Angebote strukturieren, E-Mails auf Englisch übersetzen und Normentexte zusammenfassen.
Vorher: 12 Mitarbeiter hatten ChatGPT Plus-Abos (€240/Monat gesamt). Die restlichen nutzten die kostenlose Version oder nichts.
Nachher: Alle 35 Mitarbeiter haben Zugang. Kosten: €89/Monat (Hetzner GPU-Server) + €75/Monat (Wartung durch IT-Werkstudent). Gesamtkosten €164/Monat statt €240/Monat bei besserer Abdeckung und DSGVO-Konformität. Der ROI ergab sich allein aus den eingesparten ChatGPT-Lizenzen.
Erweiterte Konfiguration
Eigene Modelfiles erstellen
Mit Ollama Modelfiles passen Sie das Verhalten der Modelle an Ihre Anforderungen an. Beispiel: Ein Modell, das immer auf Deutsch antwortet, einen professionellen Ton nutzt und Firmen-Terminologie kennt.
LDAP/Active Directory anbinden
OpenWebUI unterstützt LDAP-Authentifizierung. Mitarbeiter melden sich mit ihren Windows-Zugangsdaten an. Kein separates Passwort nötig. Die Konfiguration erfolgt über Umgebungsvariablen im Docker-Compose.
API-Zugang für Automatisierung
OpenWebUI bietet eine OpenAI-kompatible API. Bestehende Tools und Skripte, die die OpenAI API nutzen, funktionieren mit minimaler Anpassung: Nur die Base-URL ändern von api.openai.com auf ihr-server:3000/api. Damit lässt sich die KI-Integration in bestehende Workflows beschleunigen.
Häufige Probleme beim Setup
Problem: OpenWebUI zeigt keine Modelle an. Ursache: Ollama ist nicht erreichbar. Prüfen Sie, ob OLLAMA_BASE_URL korrekt gesetzt ist und ob der Ollama-Container läuft.
Problem: Langsame Antworten. Ursache: Kein GPU-Zugriff. Prüfen Sie mit docker exec ollama nvidia-smi, ob die GPU erkannt wird. Falls nicht: NVIDIA Container Toolkit installieren.
Problem: Benutzer können sich nicht anmelden. Ursache: WEBUI_AUTH=true erfordert Admin-Freischaltung. Prüfen Sie im Admin-Panel, ob neue Benutzer unter "Pending" warten.
FAQ
Wie viele Nutzer kann ein einzelner GPU-Server bedienen?
Mit einer RTX 4090 und Llama 3.1 8B bedienen Sie 15-20 gleichzeitige Nutzer ohne Wartezeiten. Bei 50 Mitarbeitern rechnen Sie mit 10-15 gleichzeitigen Nutzern, was eine GPU abdeckt.
Kann ich OpenWebUI auch ohne GPU betreiben?
Ja. Ollama läuft auch CPU-only. Die Antworten dauern dann 10-20 Sekunden statt 2-3 Sekunden. Für unter 10 Nutzer akzeptabel, darüber frustrierend.
Wie sichere ich den Server gegen unbefugten Zugriff?
Beschränken Sie den Zugang auf das Firmen-VPN. Konfigurieren Sie Nginx so, dass Port 3000 nur aus dem internen Netzwerk erreichbar ist. Aktivieren Sie HTTPS und starke Passwörter.
Können Mitarbeiter ihre Chat-Verläufe exportieren?
Ja. OpenWebUI bietet Export als Markdown oder JSON. Admins können alle Chat-Verläufe einsehen und exportieren. Datenschutz-Hinweis: Informieren Sie Mitarbeiter, dass Admins Zugang zu den Chats haben.
Wie aktualisiere ich Ollama und OpenWebUI?
docker compose pull && docker compose up -d aktualisiert beide Container. Die Daten bleiben in den Docker-Volumes erhalten. Planen Sie ein monatliches Update-Fenster von 5 Minuten ein.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
Ollama Cluster: Mehrere Server load-balancen
Ollama Cluster mit Load Balancing: 200+ gleichzeitige Nutzer, automatisches Failover und horizontale Skalierung. Nginx-Setup für den Mittelstand.
Ollama mit GPU: CUDA-Setup auf Ubuntu Server
Ollama mit NVIDIA GPU und CUDA auf Ubuntu einrichten: 8x schneller als CPU. Anleitung für CUDA-Treiber, VRAM-Optimierung und Produktiv-Betrieb.
OpenWebUI für Teams: Rollen und API-Keys verwalten
OpenWebUI für Teams einrichten: Rollen, API-Keys und Berechtigungen verwalten. Praxisanleitung mit LDAP-Anbindung und Kostencontrolling.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)