Qdrant vs Milvus: Vektordatenbank Vergleich

TL;DR

Qdrant ist die bessere Wahl für Mittelständler mit bis zu 10 Millionen Dokumenten: Einfacheres Setup, halber RAM-Verbrauch und native Filterfunktionen. Milvus gewinnt ab 50 Millionen Vektoren durch horizontale Skalierung. Für deutsche Texte in RAG-Pipelines liefern beide mit BGE-M3 Embeddings identische Retrieval-Qualität von 89 % Recall@10.

Warum die Vektordatenbank-Wahl zählt

In einer RAG-Pipeline bestimmt die Vektordatenbank, welche Dokumente dem LLM als Kontext übergeben werden. Schlechtes Retrieval führt zu falschen Antworten – egal wie gut das LLM ist.

Für deutsche Texte kommt eine Herausforderung dazu: Komposita, Umlaute und Fachbegriffe müssen korrekt embedded und durchsucht werden. Die Qualität hängt primär vom Embedding-Modell ab, aber die Datenbank beeinflusst Geschwindigkeit, Filtermöglichkeiten und Betriebskosten.

Architektur-Vergleich

Qdrant ist in Rust geschrieben und läuft als einzelner Binary. Ein Docker-Container, eine Konfigurationsdatei – fertig.

Milvus ist ein verteiltes System: Proxy, Query Node, Data Node, Index Node, etcd, MinIO. Minimales Setup: 5–7 Container. Für Skalierung designt, aber komplex im Betrieb.

# Setup-Vergleich Qdrant vs. Milvus
qdrant:
  container: 1
  min_ram_gb: 2
  min_cpu: 2
  setup_zeit_minuten: 10
  kubernetes_noetig: false
  backup: "Snapshot API (1 Befehl)"
milvus:
  container: 7
  min_ram_gb: 16
  min_cpu: 8
  setup_zeit_minuten: 45
  kubernetes_noetig: "empfohlen ab Produktion"
  backup: "MinIO + etcd Backup (mehrstufig)"

Performance-Benchmark: Deutsche Texte

Testdaten: 2 Millionen Absätze deutscher Fachartikel. Embedding: BGE-M3 (1024 Dim). Hardware: 8 vCPU, 32 GB RAM, NVMe SSD.

Metrik	Qdrant 1.9	Milvus 2.4
Indexierung (2 Mio Vektoren)	12 Min	18 Min
Query-Latenz (P50)	8 ms	11 ms
Query-Latenz (P99)	22 ms	35 ms
Recall@10	89,2 %	89,1 %
RAM-Verbrauch	6,4 GB	14,2 GB
Queries/Sekunde	1.200	850

Bei 2 Millionen Vektoren ist Qdrant in allen Metriken schneller – bei weniger als der Hälfte des RAM-Verbrauchs.

Embedding-Modelle für Deutsch

Die Retrieval-Qualität hängt vom Embedding-Modell ab, nicht von der Datenbank:

BGE-M3 (BAAI): Bestes multilinguales Modell, 94 % auf deutschen Benchmarks
E5-large-v2 (Microsoft): 91 % Retrieval-Qualität
Jina Embeddings v3: 92 %, flexibel in den Dimensionen

OpenAI Ada Embeddings liegen 5–8 % unter BGE-M3 bei deutschen Fachtexten. Self-Hosted Embeddings sind DSGVO-konformer und günstiger.

Filterfunktionen: Qdrants Stärke

Qdrant hat native Payload-Filter: Jeder Vektor trägt strukturierte Metadaten (Abteilung, Dokumenttyp, Datum, Zugriffsrechte). Filter werden vor der Vektorsuche angewandt.

Typischer Use Case: Ein Chatbot durchsucht interne Dokumente, aber jede Abteilung sieht nur ihre eigenen. In Qdrant ein einfacher Filter. In Milvus erfordert es Partition Keys und aufwendigere Konfiguration. Der KI-Implementierungsguide beschreibt RAG-Architekturen im Detail.

Kosten im Betrieb

Szenario	Qdrant	Milvus
500.000 Vektoren	€30/Monat	€80/Monat
5 Mio Vektoren	€80/Monat	€120/Monat
50 Mio Vektoren	€200/Monat	€200/Monat

Unter 5 Millionen Vektoren ist Qdrant 40–60 % günstiger. Ab 50 Millionen gleichen sich die Kosten an. Die KI-Kostenplanung sollte die Vektordatenbank als laufende Kosten einplanen.

Empfehlung für den Mittelstand

Qdrant wählen: Unter 10 Mio Vektoren, kein Kubernetes, einfacher Betrieb, Payload-Filter benötigt.

Milvus wählen: Über 50 Mio Vektoren geplant, Kubernetes vorhanden, horizontale Skalierung nötig.

Für die meisten Mittelständler ist Qdrant die richtige Wahl. Der ROI liegt in der Retrieval-Qualität der RAG-Pipeline.

Häufige Fragen

Kann ich später von Qdrant zu Milvus migrieren?

Ja. Vektoren und Metadaten lassen sich über die API exportieren und importieren. Migration von 2 Mio Vektoren dauert etwa 30 Minuten. Die Anwendung ändert nur den Endpoint.

Brauche ich eine GPU für die Vektordatenbank?

Nein. Vektordatenbanken arbeiten auf CPU und RAM. Die GPU wird nur für das Embedding-Modell benötigt. Das Embedding kann auf einem separaten Server laufen.

Wie sichere ich die Datenbank ab?

Qdrant: API-Key-Authentifizierung, TLS, regelmäßige Snapshots. Milvus: etcd-Verschlüsselung, MinIO Access Policies, TLS zwischen Komponenten. Beide im privaten Subnetz betreiben.

Wie groß wird die Datenbank?

Pro 1 Mio Vektoren (1024 Dim, float32): ~4 GB Disk, ~3 GB RAM (Qdrant) bzw. ~5 GB RAM (Milvus). Planen Sie 20 % Overhead für Indizes ein. Details im KI-Leitfaden.

Ist Weaviate eine Alternative?

Weaviate hat eingebaute Vektorisierung, ist aber komplexer als Qdrant und weniger skalierbar als Milvus. Für den pragmatischen Einstieg im Mittelstand ist Qdrant die bessere Wahl.