- Published on
Qdrant vs. Milvus: Vektordatenbank für Deutsch
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Qdrant ist die bessere Wahl für Mittelständler mit bis zu 10 Millionen Dokumenten: Einfacheres Setup, halber RAM-Verbrauch und native Filterfunktionen. Milvus gewinnt ab 50 Millionen Vektoren durch horizontale Skalierung. Für deutsche Texte in RAG-Pipelines liefern beide mit BGE-M3 Embeddings identische Retrieval-Qualität von 89 % Recall@10.
Warum die Vektordatenbank-Wahl zählt
In einer RAG-Pipeline bestimmt die Vektordatenbank, welche Dokumente dem LLM als Kontext übergeben werden. Schlechtes Retrieval führt zu falschen Antworten – egal wie gut das LLM ist.
Für deutsche Texte kommt eine Herausforderung dazu: Komposita, Umlaute und Fachbegriffe müssen korrekt embedded und durchsucht werden. Die Qualität hängt primär vom Embedding-Modell ab, aber die Datenbank beeinflusst Geschwindigkeit, Filtermöglichkeiten und Betriebskosten.
Architektur-Vergleich
Qdrant ist in Rust geschrieben und läuft als einzelner Binary. Ein Docker-Container, eine Konfigurationsdatei – fertig.
Milvus ist ein verteiltes System: Proxy, Query Node, Data Node, Index Node, etcd, MinIO. Minimales Setup: 5–7 Container. Für Skalierung designt, aber komplex im Betrieb.
# Setup-Vergleich Qdrant vs. Milvus
qdrant:
container: 1
min_ram_gb: 2
min_cpu: 2
setup_zeit_minuten: 10
kubernetes_noetig: false
backup: "Snapshot API (1 Befehl)"
milvus:
container: 7
min_ram_gb: 16
min_cpu: 8
setup_zeit_minuten: 45
kubernetes_noetig: "empfohlen ab Produktion"
backup: "MinIO + etcd Backup (mehrstufig)"
Performance-Benchmark: Deutsche Texte
Testdaten: 2 Millionen Absätze deutscher Fachartikel. Embedding: BGE-M3 (1024 Dim). Hardware: 8 vCPU, 32 GB RAM, NVMe SSD.
| Metrik | Qdrant 1.9 | Milvus 2.4 |
|---|---|---|
| Indexierung (2 Mio Vektoren) | 12 Min | 18 Min |
| Query-Latenz (P50) | 8 ms | 11 ms |
| Query-Latenz (P99) | 22 ms | 35 ms |
| Recall@10 | 89,2 % | 89,1 % |
| RAM-Verbrauch | 6,4 GB | 14,2 GB |
| Queries/Sekunde | 1.200 | 850 |
Bei 2 Millionen Vektoren ist Qdrant in allen Metriken schneller – bei weniger als der Hälfte des RAM-Verbrauchs.
Embedding-Modelle für Deutsch
Die Retrieval-Qualität hängt vom Embedding-Modell ab, nicht von der Datenbank:
- BGE-M3 (BAAI): Bestes multilinguales Modell, 94 % auf deutschen Benchmarks
- E5-large-v2 (Microsoft): 91 % Retrieval-Qualität
- Jina Embeddings v3: 92 %, flexibel in den Dimensionen
OpenAI Ada Embeddings liegen 5–8 % unter BGE-M3 bei deutschen Fachtexten. Self-Hosted Embeddings sind DSGVO-konformer und günstiger.
Filterfunktionen: Qdrants Stärke
Qdrant hat native Payload-Filter: Jeder Vektor trägt strukturierte Metadaten (Abteilung, Dokumenttyp, Datum, Zugriffsrechte). Filter werden vor der Vektorsuche angewandt.
Typischer Use Case: Ein Chatbot durchsucht interne Dokumente, aber jede Abteilung sieht nur ihre eigenen. In Qdrant ein einfacher Filter. In Milvus erfordert es Partition Keys und aufwendigere Konfiguration. Der KI-Implementierungsguide beschreibt RAG-Architekturen im Detail.
Kosten im Betrieb
| Szenario | Qdrant | Milvus |
|---|---|---|
| 500.000 Vektoren | €30/Monat | €80/Monat |
| 5 Mio Vektoren | €80/Monat | €120/Monat |
| 50 Mio Vektoren | €200/Monat | €200/Monat |
Unter 5 Millionen Vektoren ist Qdrant 40–60 % günstiger. Ab 50 Millionen gleichen sich die Kosten an. Die KI-Kostenplanung sollte die Vektordatenbank als laufende Kosten einplanen.
Empfehlung für den Mittelstand
Qdrant wählen: Unter 10 Mio Vektoren, kein Kubernetes, einfacher Betrieb, Payload-Filter benötigt.
Milvus wählen: Über 50 Mio Vektoren geplant, Kubernetes vorhanden, horizontale Skalierung nötig.
Für die meisten Mittelständler ist Qdrant die richtige Wahl. Der ROI liegt in der Retrieval-Qualität der RAG-Pipeline.
Häufige Fragen
Kann ich später von Qdrant zu Milvus migrieren?
Ja. Vektoren und Metadaten lassen sich über die API exportieren und importieren. Migration von 2 Mio Vektoren dauert etwa 30 Minuten. Die Anwendung ändert nur den Endpoint.
Brauche ich eine GPU für die Vektordatenbank?
Nein. Vektordatenbanken arbeiten auf CPU und RAM. Die GPU wird nur für das Embedding-Modell benötigt. Das Embedding kann auf einem separaten Server laufen.
Wie sichere ich die Datenbank ab?
Qdrant: API-Key-Authentifizierung, TLS, regelmäßige Snapshots. Milvus: etcd-Verschlüsselung, MinIO Access Policies, TLS zwischen Komponenten. Beide im privaten Subnetz betreiben.
Wie groß wird die Datenbank?
Pro 1 Mio Vektoren (1024 Dim, float32): ~4 GB Disk, ~3 GB RAM (Qdrant) bzw. ~5 GB RAM (Milvus). Planen Sie 20 % Overhead für Indizes ein. Details im KI-Leitfaden.
Ist Weaviate eine Alternative?
Weaviate hat eingebaute Vektorisierung, ist aber komplexer als Qdrant und weniger skalierbar als Milvus. Für den pragmatischen Einstieg im Mittelstand ist Qdrant die bessere Wahl.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
RAG mit ChromaDB: Lokale Wissensdatenbank bauen
RAG-Pipeline mit ChromaDB lokal aufsetzen: Self-hosted Wissensdatenbank für den Mittelstand. Unter 2.000 € und 85% weniger Halluzinationen.
MLflow Experiment-Tracking: Modelle vergleichen
MLflow Experiment-Tracking für den Mittelstand: Modelle systematisch vergleichen, Metriken loggen und das beste Modell deployen.
KI-Gateway: Multi-Tenant LLM-Zugang verwalten
KI-Gateway für Multi-Tenant LLM-Zugang: Kosten pro Abteilung tracken, Rate Limits setzen und API-Keys zentral verwalten.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)