- Published on
MLflow Experiment-Tracking: Modelle vergleichen
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
MLflow als Open-Source-Plattform für Experiment-Tracking spart Data-Science-Teams im Mittelstand durchschnittlich 8 Stunden pro Woche. Statt Excel-Listen speichert MLflow jeden Trainingsrun mit Hyperparametern, Metriken und Artefakten. Self-Hosted auf einem €50/Monat-Server läuft das System DSGVO-konform ohne Cloud-Abhängigkeit.
Warum Excel kein Experiment-Tracking ist
Data Scientists im Mittelstand starten typischerweise mit einer Excel-Tabelle: Modellname, Accuracy, F1-Score, Datum. Nach 50 Experimenten wird die Tabelle unübersichtlich. Nach 200 Experimenten weiß niemand mehr, welche Hyperparameter zum besten Ergebnis geführt haben.
Das Problem verschärft sich bei mehreren Personen im Team. Wer hat welches Modell mit welchen Daten trainiert? Welche Preprocessing-Schritte wurden angewandt? Welche Version der Trainingsdaten lag zugrunde?
MLflow löst diese Probleme durch automatisches Logging aller relevanten Parameter. Jeder Trainingsrun wird als Experiment gespeichert – vergleichbar und reproduzierbar.
MLflow Self-Hosted: Setup in 45 Minuten
Für den Mittelstand empfiehlt sich eine Self-Hosted-Installation. Die Daten bleiben im Unternehmen, die DSGVO-Anforderungen sind erfüllt, und die Kosten liegen bei €50–€80 pro Monat.
# docker-compose.yml für MLflow Self-Hosted
version: "3.8"
services:
mlflow-server:
image: ghcr.io/mlflow/mlflow:2.12.1
ports:
- "5000:5000"
environment:
MLFLOW_BACKEND_STORE_URI: "postgresql://mlflow:secret@postgres:5432/mlflow"
MLFLOW_DEFAULT_ARTIFACT_ROOT: "/mlflow-artifacts"
volumes:
- mlflow-artifacts:/mlflow-artifacts
command: >
mlflow server --host 0.0.0.0 --port 5000
depends_on:
- postgres
postgres:
image: postgres:16
environment:
POSTGRES_DB: mlflow
POSTGRES_USER: mlflow
POSTGRES_PASSWORD: secret
volumes:
- pg-data:/var/lib/postgresql/data
volumes:
mlflow-artifacts:
pg-data:
Starten Sie mit docker-compose up -d. Die Web-UI ist unter http://server-ip:5000 erreichbar. Für den produktiven Einsatz empfiehlt sich ein Reverse Proxy mit HTTPS und Basic Auth.
Experimente loggen: Python-Integration
Die Integration in bestehende Trainingsskripte erfordert drei zusätzliche Zeilen. MLflow unterstützt scikit-learn, PyTorch, TensorFlow, XGBoost und Hugging Face Transformers.
Schritt 1: Experiment erstellen und Parameter loggen. Jeder Trainingsrun wird automatisch mit Hyperparametern, Metriken und dem trainierten Modell gespeichert.
Schritt 2: Mehrere Runs mit verschiedenen Konfigurationen starten. Variieren Sie Lernrate, Batch-Größe, Modellarchitektur und Preprocessing-Schritte.
Schritt 3: In der Web-UI die Runs vergleichen. MLflow zeigt Parallel-Coordinate-Plots, die sofort zeigen, welche Parameterkombination die beste Performance liefert.
Modellvergleich: Die entscheidende Funktion
Der eigentliche Wert liegt im systematischen Vergleich. Statt Bauchgefühl sehen Sie exakt:
| Run | Modell | Accuracy | F1-Score | Trainingszeit | Inferenz/ms |
|---|---|---|---|---|---|
| Run-047 | BERT-base | 91,3 % | 0,89 | 42 Min | 85 |
| Run-052 | DistilBERT | 89,7 % | 0,87 | 18 Min | 32 |
| Run-061 | XGBoost+TF-IDF | 86,4 % | 0,83 | 2 Min | 4 |
Ein Mittelständler mit begrenzter GPU-Kapazität würde DistilBERT wählen: 1,6 % weniger Accuracy, aber 62 % schnellere Inferenz bei niedrigeren Infrastrukturkosten.
Model Registry: Vom Experiment zur Produktion
Das MLflow Model Registry verwaltet den Lebenszyklus trainierter Modelle. Jedes Modell durchläuft drei Stages: Staging, Production, Archived. Nur Modelle in „Production" werden vom Inferenz-Server geladen.
Typischer Freigabeprozess:
- Data Scientist registriert das beste Modell aus dem Experiment
- Fachexperte prüft Ergebnisse auf einem Validierungsdatensatz
- IT gibt Infrastruktur frei und schaltet auf „Production"
- Das alte Modell wird auf „Archived" gesetzt
Kosten und ROI für den Mittelstand
Die direkten Kosten für MLflow Self-Hosted:
- Server: €50–€80/Monat (4 vCPU, 8 GB RAM, 100 GB SSD)
- Einrichtung: 4–8 Stunden einmalig
- Wartung: 1–2 Stunden/Monat für Updates
Ein Team von zwei bis drei Data Scientists spart durchschnittlich 8 Stunden pro Woche. Bei €85 Stundensatz sind das €35.360 pro Jahr. Verglichen mit Weights & Biases (€600/Monat) oder Comet ML (€400/Monat) spart Self-Hosting zusätzlich €4.800–€7.200 pro Jahr.
Den vollständigen ROI-Vergleich können Sie mit unserer Excel-Vorlage nachrechnen.
Integration in bestehende Infrastruktur
MLflow kommuniziert über REST-API mit CI/CD-Pipelines (GitLab CI, GitHub Actions), Orchestrierungs-Tools (Airflow, Prefect) und Inferenz-Servern (FastAPI, NVIDIA Triton). Für Unternehmen mit bestehenden KI-Implementierungen ist MLflow der logische nächste Schritt zum systematischen ML-Lifecycle.
Häufige Fragen
Wie viele Experimente kann MLflow speichern?
Mit PostgreSQL als Backend gibt es kein praktisches Limit. Unternehmen mit 10.000+ Runs berichten von stabilen Antwortzeiten unter 200 ms. Planen Sie 1–5 GB pro 1.000 Runs ein.
Brauche ich MLflow bei nur einem Modell?
Ja. Jedes Retraining erzeugt eine neue Version. Nach sechs Monaten haben Sie 20+ Versionen und brauchen Nachvollziehbarkeit, welche Version mit welchen Daten trainiert wurde.
Ist MLflow DSGVO-konform?
Self-Hosted auf eigener Infrastruktur ist MLflow vollständig DSGVO-konform. Keine Daten verlassen das Netzwerk. Trainingsdaten mit personenbezogenen Inhalten sollten vor dem Logging anonymisiert werden.
Kann ich MLflow mit Jupyter Notebooks nutzen?
Ja. MLflow lässt sich direkt in Notebooks einbinden. Jede Zelle loggt automatisch auf den MLflow-Server. Die Web-UI zeigt alle Runs unabhängig von der Quelle.
Wie migriere ich von Excel-Tracking zu MLflow?
Exportieren Sie bestehende Ergebnisse als CSV und importieren Sie diese als initiale Runs. Das dauert ein bis zwei Stunden. Eine parallele Phase von zwei Wochen empfiehlt sich zur Eingewöhnung.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
KI-Gateway: Multi-Tenant LLM-Zugang verwalten
KI-Gateway für Multi-Tenant LLM-Zugang: Kosten pro Abteilung tracken, Rate Limits setzen und API-Keys zentral verwalten.
Triton Inference Server: Multi-Modell GPU teilen
NVIDIA Triton Inference Server: Mehrere KI-Modelle auf einer GPU betreiben, 60% bessere Auslastung und €18.000/Jahr Infrastruktur sparen.
Qdrant vs. Milvus: Vektordatenbank für Deutsch
Qdrant vs. Milvus im Vergleich: Performance, Kosten und deutsche Textsuche. Qdrant gewinnt bei Einfachheit, Milvus bei Skalierung.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)