- Published on
RAG mit ChromaDB: Lokale Wissensdatenbank bauen
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Mit ChromaDB bauen Sie eine lokale RAG-Pipeline, die Unternehmenswissen durchsuchbar macht, ohne Daten an externe Cloud-Dienste zu senden. Die Lösung läuft auf einem einzelnen Server, kostet unter 2.000 Euro und reduziert KI-Halluzinationen um 85%. Dieser Guide zeigt die komplette Einrichtung mit Python und Ollama.
Warum lokale RAG-Pipelines für den Mittelstand relevant sind
Retrieval Augmented Generation (RAG) ergänzt Sprachmodelle mit Unternehmenswissen. Statt generische Antworten zu liefern, durchsucht das System interne Dokumente und generiert Antworten auf Basis realer Firmendaten.
Das Problem bei Cloud-basierten Lösungen: Sensible Unternehmensunterlagen verlassen das Firmennetzwerk. Für Mittelständler mit Geheimhaltungspflichten gegenüber OEM-Kunden oder regulatorischen Anforderungen ist das ein Ausschlusskriterium.
ChromaDB löst dieses Problem. Die Open-Source-Vektordatenbank läuft vollständig lokal, speichert Embeddings auf dem eigenen Server und benötigt keine Internet-Verbindung im Betrieb.
ChromaDB im Vergleich zu Alternativen
| Kriterium | ChromaDB | Pinecone | Weaviate | Milvus |
|---|---|---|---|---|
| Self-Hosted | Ja | Nein | Ja | Ja |
| Setup-Aufwand | 15 Min. | 5 Min. | 45 Min. | 60 Min. |
| RAM-Bedarf (100k Docs) | 4 GB | Cloud | 8 GB | 12 GB |
| Kosten/Monat | 0 € | 70 € | 0 € | 0 € |
| Python-Integration | Nativ | SDK | SDK | SDK |
| Persistenz | SQLite | Cloud | Custom | RocksDB |
ChromaDB eignet sich besonders für Wissensdatenbanken mit bis zu 500.000 Dokumenten. Darüber hinaus bieten Milvus oder Weaviate bessere Skalierung.
Architektur der lokalen RAG-Pipeline
# rag-pipeline/docker-compose.yaml
version: "3.9"
services:
chromadb:
image: chromadb/chroma:0.4.24
ports:
- "8000:8000"
volumes:
- chroma_data:/chroma/chroma
environment:
- ANONYMIZED_TELEMETRY=False
- CHROMA_SERVER_AUTH_PROVIDER=chromadb.auth.token.TokenAuthServerProvider
- CHROMA_SERVER_AUTH_TOKEN=${CHROMA_TOKEN}
ollama:
image: ollama/ollama:latest
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
rag_api:
build: ./api
ports:
- "8080:8080"
environment:
- CHROMA_HOST=chromadb
- CHROMA_PORT=8000
- OLLAMA_HOST=ollama
- OLLAMA_MODEL=llama3.1:8b
volumes:
chroma_data:
ollama_data:
Die Pipeline besteht aus drei Komponenten: ChromaDB speichert die Vektoren, Ollama betreibt das Sprachmodell lokal, und die RAG-API orchestriert Suche und Antwortgenerierung.
Schritt-für-Schritt: Wissensdatenbank aufbauen
Schritt 1: ChromaDB installieren und Collection anlegen
Starten Sie die Docker-Container und erstellen Sie eine Collection für Ihre Dokumente. ChromaDB organisiert Daten in Collections, vergleichbar mit Tabellen in einer relationalen Datenbank.
Schritt 2: Dokumente indexieren
Laden Sie PDF-, DOCX- und TXT-Dateien aus Ihren Abteilungen. Der Indexierungsprozess teilt Dokumente in Chunks von 500–1.000 Tokens, berechnet Embeddings und speichert sie in ChromaDB. Bei 10.000 Dokumenten dauert die Erstindexierung etwa 2 Stunden auf einer Standard-CPU.
Schritt 3: Retrieval konfigurieren
Konfigurieren Sie die Suche mit einem Top-K-Wert von 5 und einem Relevanz-Schwellenwert von 0,7. Das System liefert dann die 5 relevantesten Dokumentenabschnitte, sofern deren Ähnlichkeit mindestens 70% beträgt.
Schritt 4: Antwortgenerierung testen
Stellen Sie Testfragen aus verschiedenen Fachbereichen. Prüfen Sie, ob die Antworten die richtigen Quelldokumente referenzieren und keine Informationen halluziniert werden.
Detaillierte Anleitungen zur RAG-Integration mit SAP finden Sie in unserem RAG-Pipeline SAP-Integration Guide.
Embedding-Modelle für deutschsprachige Dokumente
Für deutsche Texte empfehlen sich diese Embedding-Modelle:
- multilingual-e5-large: Beste Qualität für Deutsch, 1,3 GB, langsam
- paraphrase-multilingual-MiniLM-L12-v2: Guter Kompromiss, 470 MB
- BGE-M3: Multilinguale Suche, 2,2 GB, unterstützt Sparse+Dense
Testen Sie mit einem repräsentativen Satz von 50 Fragen, welches Modell die höchste Recall-Rate für Ihre Dokumente erzielt. In der Praxis liefert multilingual-e5-large für technische Dokumentationen die besten Ergebnisse.
Kosten und Hardware-Anforderungen
| Komponente | Minimum | Empfohlen |
|---|---|---|
| CPU | 4 Kerne | 8 Kerne |
| RAM | 16 GB | 32 GB |
| GPU | Keine (CPU-Inferenz) | RTX 4060 (8 GB VRAM) |
| Speicher | 100 GB SSD | 500 GB NVMe |
| Gesamtkosten Server | 800 € | 1.800 € |
Ohne GPU dauert die Antwortgenerierung mit Llama 3.1 8B etwa 15 Sekunden. Mit GPU sinkt die Latenz auf 2–3 Sekunden. Für die Budgetplanung von KI-Projekten sollten Sie diese Hardware-Kosten einplanen.
Typische Anwendungsfälle im Mittelstand
Technische Dokumentation durchsuchen: Servicetechniker fragen das System nach Wartungsintervallen, Fehlercode-Bedeutungen oder Ersatzteilnummern. Das spart 25 Minuten pro Anfrage gegenüber der manuellen Suche in PDF-Handbüchern.
Qualitätsmanagement: QM-Beauftragte suchen nach relevanten Normenpassagen und internen Verfahrensanweisungen. Die RAG-Pipeline liefert den exakten Abschnitt mit Quellenangabe.
Vertriebsunterstützung: Außendienstmitarbeiter rufen Produktspezifikationen, Preislisten und Kundenhistorien ab. Die Antwortzeit sinkt von Stunden auf Sekunden.
Weitere Einsatzszenarien beschreibt unser KI-Leitfaden für Unternehmen.
Sicherheit und Datenschutz
Die lokale RAG-Pipeline bietet drei entscheidende Vorteile für den Datenschutz:
- Keine Datenübertragung: Alle Dokumente, Embeddings und Abfragen bleiben im Firmennetzwerk
- Zugriffskontrolle: ChromaDB unterstützt Token-basierte Authentifizierung und Collection-level Berechtigungen
- Auditierung: Jede Abfrage wird mit Zeitstempel, Benutzer und abgerufenen Quellen protokolliert
Für die DSGVO-Konformität dokumentieren Sie die Verarbeitungszwecke im Verzeichnis der Verarbeitungstätigkeiten. Personenbezogene Daten in indexierten Dokumenten erfordern eine Rechtsgrundlage nach Art. 6 DSGVO.
ROI-Berechnung
Ein Maschinenbau-Betrieb mit 120 Mitarbeitern und 15.000 technischen Dokumenten erzielte folgende Ergebnisse nach 3 Monaten:
- Suchzeit pro Anfrage: von 18 Minuten auf 45 Sekunden
- Anzahl Anfragen pro Tag: 35
- Eingesparte Zeit pro Tag: 10,1 Stunden
- Jährliche Einsparung: 186.000 Euro (bei 85 Euro/Stunde)
- Implementierungskosten: 4.200 Euro
Die ROI-Berechnung für KI-Projekte lässt sich mit unserer Excel-Vorlage individuell anpassen.
Häufig gestellte Fragen
Wie viele Dokumente kann ChromaDB verarbeiten?
ChromaDB verarbeitet zuverlässig bis zu 500.000 Dokumente auf einem einzelnen Server. Bei größeren Beständen empfiehlt sich die Aufteilung in mehrere Collections oder der Umstieg auf Milvus.
Kann ich bestehende PDFs direkt indexieren?
Ja. Nutzen Sie PyMuPDF oder pdfplumber für die Textextraktion. Gescannte PDFs benötigen zusätzlich OCR über Tesseract. Die Qualität der Textextraktion beeinflusst direkt die Antwortqualität.
Wie aktualisiere ich die Wissensdatenbank?
Richten Sie einen Cron-Job ein, der neue und geänderte Dateien automatisch erkennt und nachindexiert. ChromaDB unterstützt Upsert-Operationen, sodass bestehende Einträge aktualisiert statt dupliziert werden.
Funktioniert RAG auch ohne GPU?
Ja, allerdings mit höherer Latenz. Embedding-Berechnung läuft problemlos auf CPU. Die Antwortgenerierung dauert ohne GPU 10–15 Sekunden statt 2–3 Sekunden. Für interne Wissensdatenbanken ist das meist akzeptabel.
Welche Dateiformate werden unterstützt?
PDF, DOCX, TXT, Markdown, HTML und CSV. Über LangChain-Loader lassen sich weitere Formate wie E-Mails (MSG/EML), PowerPoint und Excel anbinden.
Nächste Schritte
Starten Sie mit einem abgegrenzten Dokumentenbestand aus einer Abteilung. Technische Dokumentationen eignen sich besonders gut, weil die Antwortqualität leicht prüfbar ist. Erweitern Sie den Bestand schrittweise und binden Sie Fachabteilungen als Tester ein.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
ChatGPT-Alternative lokal: 5 Tools ohne Abo
5 kostenlose ChatGPT-Alternativen lokal ohne Abo: Ollama, LM Studio, GPT4All, Jan und LocalAI im Benchmark-Vergleich für den Mittelstand.
KI-Server kaufen: GPU-Guide für unter €10.000
KI-Server für den Mittelstand unter €10.000: GPU-Vergleich, 3 Konfigurationen und Benchmarks. RTX 4090 vs. A4000 vs. L4 mit Einkaufsliste.
Whisper lokal: Meetings transkribieren auf Deutsch
OpenAI Whisper lokal installieren und deutsche Meetings transkribieren. DSGVO-konform, ohne Cloud, mit 95 % Genauigkeit ab Tag 1.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)