Published on

RAG mit ChromaDB: Lokale Wissensdatenbank bauen

Authors

TL;DR

Mit ChromaDB bauen Sie eine lokale RAG-Pipeline, die Unternehmenswissen durchsuchbar macht, ohne Daten an externe Cloud-Dienste zu senden. Die Lösung läuft auf einem einzelnen Server, kostet unter 2.000 Euro und reduziert KI-Halluzinationen um 85%. Dieser Guide zeigt die komplette Einrichtung mit Python und Ollama.


Warum lokale RAG-Pipelines für den Mittelstand relevant sind

Retrieval Augmented Generation (RAG) ergänzt Sprachmodelle mit Unternehmenswissen. Statt generische Antworten zu liefern, durchsucht das System interne Dokumente und generiert Antworten auf Basis realer Firmendaten.

Das Problem bei Cloud-basierten Lösungen: Sensible Unternehmensunterlagen verlassen das Firmennetzwerk. Für Mittelständler mit Geheimhaltungspflichten gegenüber OEM-Kunden oder regulatorischen Anforderungen ist das ein Ausschlusskriterium.

ChromaDB löst dieses Problem. Die Open-Source-Vektordatenbank läuft vollständig lokal, speichert Embeddings auf dem eigenen Server und benötigt keine Internet-Verbindung im Betrieb.

ChromaDB im Vergleich zu Alternativen

KriteriumChromaDBPineconeWeaviateMilvus
Self-HostedJaNeinJaJa
Setup-Aufwand15 Min.5 Min.45 Min.60 Min.
RAM-Bedarf (100k Docs)4 GBCloud8 GB12 GB
Kosten/Monat0 €70 €0 €0 €
Python-IntegrationNativSDKSDKSDK
PersistenzSQLiteCloudCustomRocksDB

ChromaDB eignet sich besonders für Wissensdatenbanken mit bis zu 500.000 Dokumenten. Darüber hinaus bieten Milvus oder Weaviate bessere Skalierung.

Architektur der lokalen RAG-Pipeline

# rag-pipeline/docker-compose.yaml
version: "3.9"
services:
  chromadb:
    image: chromadb/chroma:0.4.24
    ports:
      - "8000:8000"
    volumes:
      - chroma_data:/chroma/chroma
    environment:
      - ANONYMIZED_TELEMETRY=False
      - CHROMA_SERVER_AUTH_PROVIDER=chromadb.auth.token.TokenAuthServerProvider
      - CHROMA_SERVER_AUTH_TOKEN=${CHROMA_TOKEN}

  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

  rag_api:
    build: ./api
    ports:
      - "8080:8080"
    environment:
      - CHROMA_HOST=chromadb
      - CHROMA_PORT=8000
      - OLLAMA_HOST=ollama
      - OLLAMA_MODEL=llama3.1:8b

volumes:
  chroma_data:
  ollama_data:

Die Pipeline besteht aus drei Komponenten: ChromaDB speichert die Vektoren, Ollama betreibt das Sprachmodell lokal, und die RAG-API orchestriert Suche und Antwortgenerierung.

Schritt-für-Schritt: Wissensdatenbank aufbauen

Schritt 1: ChromaDB installieren und Collection anlegen

Starten Sie die Docker-Container und erstellen Sie eine Collection für Ihre Dokumente. ChromaDB organisiert Daten in Collections, vergleichbar mit Tabellen in einer relationalen Datenbank.

Schritt 2: Dokumente indexieren

Laden Sie PDF-, DOCX- und TXT-Dateien aus Ihren Abteilungen. Der Indexierungsprozess teilt Dokumente in Chunks von 500–1.000 Tokens, berechnet Embeddings und speichert sie in ChromaDB. Bei 10.000 Dokumenten dauert die Erstindexierung etwa 2 Stunden auf einer Standard-CPU.

Schritt 3: Retrieval konfigurieren

Konfigurieren Sie die Suche mit einem Top-K-Wert von 5 und einem Relevanz-Schwellenwert von 0,7. Das System liefert dann die 5 relevantesten Dokumentenabschnitte, sofern deren Ähnlichkeit mindestens 70% beträgt.

Schritt 4: Antwortgenerierung testen

Stellen Sie Testfragen aus verschiedenen Fachbereichen. Prüfen Sie, ob die Antworten die richtigen Quelldokumente referenzieren und keine Informationen halluziniert werden.

Detaillierte Anleitungen zur RAG-Integration mit SAP finden Sie in unserem RAG-Pipeline SAP-Integration Guide.

Embedding-Modelle für deutschsprachige Dokumente

Für deutsche Texte empfehlen sich diese Embedding-Modelle:

  • multilingual-e5-large: Beste Qualität für Deutsch, 1,3 GB, langsam
  • paraphrase-multilingual-MiniLM-L12-v2: Guter Kompromiss, 470 MB
  • BGE-M3: Multilinguale Suche, 2,2 GB, unterstützt Sparse+Dense

Testen Sie mit einem repräsentativen Satz von 50 Fragen, welches Modell die höchste Recall-Rate für Ihre Dokumente erzielt. In der Praxis liefert multilingual-e5-large für technische Dokumentationen die besten Ergebnisse.

Kosten und Hardware-Anforderungen

KomponenteMinimumEmpfohlen
CPU4 Kerne8 Kerne
RAM16 GB32 GB
GPUKeine (CPU-Inferenz)RTX 4060 (8 GB VRAM)
Speicher100 GB SSD500 GB NVMe
Gesamtkosten Server800 €1.800 €

Ohne GPU dauert die Antwortgenerierung mit Llama 3.1 8B etwa 15 Sekunden. Mit GPU sinkt die Latenz auf 2–3 Sekunden. Für die Budgetplanung von KI-Projekten sollten Sie diese Hardware-Kosten einplanen.

Typische Anwendungsfälle im Mittelstand

Technische Dokumentation durchsuchen: Servicetechniker fragen das System nach Wartungsintervallen, Fehlercode-Bedeutungen oder Ersatzteilnummern. Das spart 25 Minuten pro Anfrage gegenüber der manuellen Suche in PDF-Handbüchern.

Qualitätsmanagement: QM-Beauftragte suchen nach relevanten Normenpassagen und internen Verfahrensanweisungen. Die RAG-Pipeline liefert den exakten Abschnitt mit Quellenangabe.

Vertriebsunterstützung: Außendienstmitarbeiter rufen Produktspezifikationen, Preislisten und Kundenhistorien ab. Die Antwortzeit sinkt von Stunden auf Sekunden.

Weitere Einsatzszenarien beschreibt unser KI-Leitfaden für Unternehmen.

Sicherheit und Datenschutz

Die lokale RAG-Pipeline bietet drei entscheidende Vorteile für den Datenschutz:

  1. Keine Datenübertragung: Alle Dokumente, Embeddings und Abfragen bleiben im Firmennetzwerk
  2. Zugriffskontrolle: ChromaDB unterstützt Token-basierte Authentifizierung und Collection-level Berechtigungen
  3. Auditierung: Jede Abfrage wird mit Zeitstempel, Benutzer und abgerufenen Quellen protokolliert

Für die DSGVO-Konformität dokumentieren Sie die Verarbeitungszwecke im Verzeichnis der Verarbeitungstätigkeiten. Personenbezogene Daten in indexierten Dokumenten erfordern eine Rechtsgrundlage nach Art. 6 DSGVO.

ROI-Berechnung

Ein Maschinenbau-Betrieb mit 120 Mitarbeitern und 15.000 technischen Dokumenten erzielte folgende Ergebnisse nach 3 Monaten:

  • Suchzeit pro Anfrage: von 18 Minuten auf 45 Sekunden
  • Anzahl Anfragen pro Tag: 35
  • Eingesparte Zeit pro Tag: 10,1 Stunden
  • Jährliche Einsparung: 186.000 Euro (bei 85 Euro/Stunde)
  • Implementierungskosten: 4.200 Euro

Die ROI-Berechnung für KI-Projekte lässt sich mit unserer Excel-Vorlage individuell anpassen.

Häufig gestellte Fragen

Wie viele Dokumente kann ChromaDB verarbeiten?

ChromaDB verarbeitet zuverlässig bis zu 500.000 Dokumente auf einem einzelnen Server. Bei größeren Beständen empfiehlt sich die Aufteilung in mehrere Collections oder der Umstieg auf Milvus.

Kann ich bestehende PDFs direkt indexieren?

Ja. Nutzen Sie PyMuPDF oder pdfplumber für die Textextraktion. Gescannte PDFs benötigen zusätzlich OCR über Tesseract. Die Qualität der Textextraktion beeinflusst direkt die Antwortqualität.

Wie aktualisiere ich die Wissensdatenbank?

Richten Sie einen Cron-Job ein, der neue und geänderte Dateien automatisch erkennt und nachindexiert. ChromaDB unterstützt Upsert-Operationen, sodass bestehende Einträge aktualisiert statt dupliziert werden.

Funktioniert RAG auch ohne GPU?

Ja, allerdings mit höherer Latenz. Embedding-Berechnung läuft problemlos auf CPU. Die Antwortgenerierung dauert ohne GPU 10–15 Sekunden statt 2–3 Sekunden. Für interne Wissensdatenbanken ist das meist akzeptabel.

Welche Dateiformate werden unterstützt?

PDF, DOCX, TXT, Markdown, HTML und CSV. Über LangChain-Loader lassen sich weitere Formate wie E-Mails (MSG/EML), PowerPoint und Excel anbinden.

Nächste Schritte

Starten Sie mit einem abgegrenzten Dokumentenbestand aus einer Abteilung. Technische Dokumentationen eignen sich besonders gut, weil die Antwortqualität leicht prüfbar ist. Erweitern Sie den Bestand schrittweise und binden Sie Fachabteilungen als Tester ein.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)