- Published on
Qdrant vs Milvus: Vektordatenbank Vergleich
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Qdrant ist die bessere Wahl für Mittelständler mit bis zu 10 Millionen Dokumenten: Einfacheres Setup, halber RAM-Verbrauch und native Filterfunktionen. Milvus gewinnt ab 50 Millionen Vektoren durch horizontale Skalierung. Für deutsche Texte in RAG-Pipelines liefern beide mit BGE-M3 Embeddings identische Retrieval-Qualität von 89 % Recall@10.
Warum die Vektordatenbank-Wahl zählt
In einer RAG-Pipeline bestimmt die Vektordatenbank, welche Dokumente dem LLM als Kontext übergeben werden. Schlechtes Retrieval führt zu falschen Antworten – egal wie gut das LLM ist.
Für deutsche Texte kommt eine Herausforderung dazu: Komposita, Umlaute und Fachbegriffe müssen korrekt embedded und durchsucht werden. Die Qualität hängt primär vom Embedding-Modell ab, aber die Datenbank beeinflusst Geschwindigkeit, Filtermöglichkeiten und Betriebskosten.
Architektur-Vergleich
Qdrant ist in Rust geschrieben und läuft als einzelner Binary. Ein Docker-Container, eine Konfigurationsdatei – fertig.
Milvus ist ein verteiltes System: Proxy, Query Node, Data Node, Index Node, etcd, MinIO. Minimales Setup: 5–7 Container. Für Skalierung designt, aber komplex im Betrieb.
# Setup-Vergleich Qdrant vs. Milvus
qdrant:
container: 1
min_ram_gb: 2
min_cpu: 2
setup_zeit_minuten: 10
kubernetes_noetig: false
backup: "Snapshot API (1 Befehl)"
milvus:
container: 7
min_ram_gb: 16
min_cpu: 8
setup_zeit_minuten: 45
kubernetes_noetig: "empfohlen ab Produktion"
backup: "MinIO + etcd Backup (mehrstufig)"
Performance-Benchmark: Deutsche Texte
Testdaten: 2 Millionen Absätze deutscher Fachartikel. Embedding: BGE-M3 (1024 Dim). Hardware: 8 vCPU, 32 GB RAM, NVMe SSD.
| Metrik | Qdrant 1.9 | Milvus 2.4 |
|---|---|---|
| Indexierung (2 Mio Vektoren) | 12 Min | 18 Min |
| Query-Latenz (P50) | 8 ms | 11 ms |
| Query-Latenz (P99) | 22 ms | 35 ms |
| Recall@10 | 89,2 % | 89,1 % |
| RAM-Verbrauch | 6,4 GB | 14,2 GB |
| Queries/Sekunde | 1.200 | 850 |
Bei 2 Millionen Vektoren ist Qdrant in allen Metriken schneller – bei weniger als der Hälfte des RAM-Verbrauchs.
Embedding-Modelle für Deutsch
Die Retrieval-Qualität hängt vom Embedding-Modell ab, nicht von der Datenbank:
- BGE-M3 (BAAI): Bestes multilinguales Modell, 94 % auf deutschen Benchmarks
- E5-large-v2 (Microsoft): 91 % Retrieval-Qualität
- Jina Embeddings v3: 92 %, flexibel in den Dimensionen
OpenAI Ada Embeddings liegen 5–8 % unter BGE-M3 bei deutschen Fachtexten. Self-Hosted Embeddings sind DSGVO-konformer und günstiger.
Filterfunktionen: Qdrants Stärke
Qdrant hat native Payload-Filter: Jeder Vektor trägt strukturierte Metadaten (Abteilung, Dokumenttyp, Datum, Zugriffsrechte). Filter werden vor der Vektorsuche angewandt.
Typischer Use Case: Ein Chatbot durchsucht interne Dokumente, aber jede Abteilung sieht nur ihre eigenen. In Qdrant ein einfacher Filter. In Milvus erfordert es Partition Keys und aufwendigere Konfiguration. Der KI-Implementierungsguide beschreibt RAG-Architekturen im Detail.
Kosten im Betrieb
| Szenario | Qdrant | Milvus |
|---|---|---|
| 500.000 Vektoren | €30/Monat | €80/Monat |
| 5 Mio Vektoren | €80/Monat | €120/Monat |
| 50 Mio Vektoren | €200/Monat | €200/Monat |
Unter 5 Millionen Vektoren ist Qdrant 40–60 % günstiger. Ab 50 Millionen gleichen sich die Kosten an. Die KI-Kostenplanung sollte die Vektordatenbank als laufende Kosten einplanen.
Empfehlung für den Mittelstand
Qdrant wählen: Unter 10 Mio Vektoren, kein Kubernetes, einfacher Betrieb, Payload-Filter benötigt.
Milvus wählen: Über 50 Mio Vektoren geplant, Kubernetes vorhanden, horizontale Skalierung nötig.
Für die meisten Mittelständler ist Qdrant die richtige Wahl. Der ROI liegt in der Retrieval-Qualität der RAG-Pipeline.
Häufige Fragen
Kann ich später von Qdrant zu Milvus migrieren?
Ja. Vektoren und Metadaten lassen sich über die API exportieren und importieren. Migration von 2 Mio Vektoren dauert etwa 30 Minuten. Die Anwendung ändert nur den Endpoint.
Brauche ich eine GPU für die Vektordatenbank?
Nein. Vektordatenbanken arbeiten auf CPU und RAM. Die GPU wird nur für das Embedding-Modell benötigt. Das Embedding kann auf einem separaten Server laufen.
Wie sichere ich die Datenbank ab?
Qdrant: API-Key-Authentifizierung, TLS, regelmäßige Snapshots. Milvus: etcd-Verschlüsselung, MinIO Access Policies, TLS zwischen Komponenten. Beide im privaten Subnetz betreiben.
Wie groß wird die Datenbank?
Pro 1 Mio Vektoren (1024 Dim, float32): ~4 GB Disk, ~3 GB RAM (Qdrant) bzw. ~5 GB RAM (Milvus). Planen Sie 20 % Overhead für Indizes ein. Details im KI-Leitfaden.
Ist Weaviate eine Alternative?
Weaviate hat eingebaute Vektorisierung, ist aber komplexer als Qdrant und weniger skalierbar als Milvus. Für den pragmatischen Einstieg im Mittelstand ist Qdrant die bessere Wahl.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
Qdrant vs Pinecone vs Milvus: Vektor-DB für Fertigung: €500.000 mehr Ausschusskontrolle 2026
Qdrant, Pinecone oder Milvus? Finden Sie die passende Vektor-Datenbank für Ihre Fertigung in Deutschland. Senken Sie Ausschuss um bis zu €500.000 und steigern Sie die Qualitätskontrolle.
Flowise AI Azure VNET: Sichere KI für Banken – €1,5 Mio. Ausschuss gespart 2026
Mit Flowise AI im Azure VNET können Banken ihre Qualitätskontrolle revolutionieren. Vermeiden Sie bis zu €1,5 Mio. Ausschuss und sichern Sie gleichzeitig sensible Daten durch DSGVO-konforme Low-Code KI.
Vespa RAG für Fertigung: €400k weniger Ausschuss & schnelle Suche 2026
Vespa RAG revolutioniert die Fertigung: €400.000 Ausschussreduktion durch intelligente Suche und Wissensmanagement. Erfahren Sie mehr über die All-in-One-Plattform für den deutschen Mittelstand.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)