- Published on
Haystack RAG: Verträge durchsuchbar machen
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Deepset Haystack macht Vertragsarchive per natürlicher Sprache durchsuchbar. Juristen und Vertragsmanager finden relevante Klauseln, Fristen und Konditionen in 15 Sekunden statt 45 Minuten manueller Suche. Das Open-Source-Framework läuft on-premise und eignet sich besonders für Mittelständler mit 500+ Verträgen, die keine Cloud-Lösung für sensible Dokumente wollen.
Das Vertragschaos im Mittelstand
Deutsche Mittelständler verwalten durchschnittlich 800-3.000 aktive Verträge: Kundenverträge, Lieferantenrahmenverträge, Mietverträge, Arbeitsverträge, NDAs, Wartungsverträge und Versicherungspolicen. Diese Verträge liegen verteilt in E-Mail-Archiven, SharePoint-Ordnern, lokalen Laufwerken und manchmal noch in Aktenordnern.
Das Problem wird akut, wenn eine konkrete Frage auftaucht: „In welchen Verträgen haben wir eine Preisanpassungsklausel mit Indexbindung?" oder „Welche Lieferantenverträge laufen im Q3 2026 aus?"
Die manuelle Suche dauert 30-90 Minuten pro Anfrage. Bei einer Rechtsabteilung mit 15-20 solcher Anfragen pro Woche summiert sich das auf 30-60 Stunden verlorene Arbeitszeit pro Monat – das sind €4.500-9.000 monatlich bei einem Stundensatz von €150 für Juristen.
| Suchszenario | Manuell | Mit Haystack RAG |
|---|---|---|
| Klausel in einem Vertrag finden | 15 min | 10 Sekunden |
| Klausel über alle Verträge suchen | 45-90 min | 15 Sekunden |
| Fristenliste erstellen | 2-4 Stunden | 30 Sekunden |
| Vertragsvergleich (2 Verträge) | 60-90 min | 2 Minuten |
| Compliance-Check (alle Verträge) | 2-3 Tage | 15 Minuten |
Warum Haystack und nicht ChatGPT?
ChatGPT oder Claude können keine 2.000 Verträge gleichzeitig durchsuchen. Sie haben ein begrenztes Kontextfenster und die Verträge müssten in die Cloud hochgeladen werden – für juristische Dokumente oft ausgeschlossen.
Haystack von Deepset (ein deutsches Unternehmen aus Berlin) löst dieses Problem mit Retrieval-Augmented Generation (RAG): Die Verträge werden lokal indexiert, bei einer Frage werden nur die relevanten Passagen abgerufen und dem LLM als Kontext übergeben.
Vorteile von Haystack:
- Open Source (Apache 2.0 Lizenz)
- Läuft komplett on-premise
- Deutsches Unternehmen (Support auf Deutsch)
- Modular: Jede Komponente austauschbar
- Pipeline-basiert: Komplexe Workflows abbildbar
Technische Architektur
haystack_vertragssuche:
dokumenten_pipeline:
formate: [pdf, docx, jpg_scans, msg_email_anhaenge]
vorverarbeitung:
ocr: paddleocr_oder_tesseract
pdf_parsing: pypdf2_plus_docling
cleaning: whitespace_normalisierung
chunking:
methode: recursive_character_splitter
chunk_size: 1000_zeichen
overlap: 200_zeichen
metadata: [vertragsnummer, vertragstyp, parteien, datum]
embedding:
modell: intfloat/multilingual-e5-large
dimension: 1024
vektordatenbank: qdrant
index_typ: hnsw
retrieval:
top_k: 10
reranker: cross-encoder/ms-marco-MiniLM-L-12-v2
filter: [vertragstyp, datum_bereich, partei]
llm:
modell: mistral-7b-instruct_oder_llama3-8b
hosting: lokal_via_ollama
temperatur: 0.1
max_tokens: 2048
system_prompt: juristisch_praezise_antworten
frontend:
framework: streamlit_oder_open_webui
features:
- freitext_suche
- filter_nach_vertragstyp
- quellenangabe_mit_seitenzahl
- export_als_pdf
sicherheit:
authentifizierung: ldap_active_directory
berechtigungen: rollenbasiert
audit_log: alle_anfragen_protokolliert
Implementierung in 6 Wochen
Woche 1-2: Datenvorbereitung
Der aufwändigste Schritt: Alle Verträge digital und an einem Ort sammeln.
- SharePoint-Ordner, Netzlaufwerke und E-Mail-Archive systematisch durchsuchen
- Papierverträge scannen (OCR-fähig, 300 dpi)
- Metadaten ergänzen: Vertragstyp, Parteien, Laufzeit, Kündigungsfristen
- Erfahrungswert: 60% der Verträge liegen bereits digital vor
Woche 3-4: System aufsetzen
- Haystack-Pipeline installieren und konfigurieren
- Qdrant als Vektordatenbank einrichten
- LLM (Mistral 7B) via Ollama bereitstellen
- Dokumente indexieren (1.000 Verträge: ca. 2 Stunden)
- Erste Testfragen mit Juristen durchführen
Woche 5: Optimierung
- Chunking-Parameter anpassen (juristische Dokumente brauchen größere Chunks)
- Reranker-Modell fine-tunen auf juristische Texte
- Metadaten-Filter einrichten (Vertragstyp, Laufzeit, Partei)
- Berechtigungskonzept umsetzen (nicht jeder darf alle Verträge sehen)
Woche 6: Rollout
- Schulung für Rechtsabteilung und Vertragsmanagement (3 Stunden)
- Parallelbetrieb: 2 Wochen neue Suche neben alter Methode
- Feedback sammeln und letzte Anpassungen vornehmen
Die KI-Implementierung sollte mit den wichtigsten Vertragstypen starten und schrittweise erweitern.
Praxisbeispiel: Automobilzulieferer aus Bayern
Ein Automobilzulieferer mit 350 Mitarbeitern und einer Rechtsabteilung mit 2 Juristen implementierte Haystack RAG für sein Vertragsarchiv.
Ausgangslage:
- 2.200 aktive Verträge (Kunden, Lieferanten, Immobilien, Personal)
- Verträge verteilt auf SharePoint, Netzlaufwerk und 3 Aktenordner
- 25 Vertragsanfragen pro Woche aus Einkauf, Vertrieb und Geschäftsführung
- Durchschnittliche Bearbeitungszeit: 35 Minuten pro Anfrage
Ergebnis nach 3 Monaten:
- Bearbeitungszeit: 2-5 Minuten pro Anfrage (-90%)
- Juristen-Kapazität: 18 Stunden/Woche frei für wertschöpfende Arbeit
- Vertragserneuerungen: Keine vergessene Frist mehr (automatische Alerts)
- Einsparung: €54.000/Jahr (Zeitersparnis × Juristen-Stundensatz)
Das System beantwortete auch Fragen, die vorher gar nicht gestellt wurden – weil der Aufwand zu hoch gewesen wäre. Zum Beispiel: „In welchen Verträgen fehlt eine Force-Majeure-Klausel?"
Die ROI-Berechnung berücksichtigte neben der Zeitersparnis auch vermiedene Risiken durch vergessene Fristen.
Kosten und Hardware
| Position | Betrag |
|---|---|
| Server-Hardware (RTX 4090, 64 GB RAM) | €5.800 (einmalig) |
| Dokumenten-Digitalisierung (500 Papierverträge) | €2.500 (einmalig) |
| Setup und Konfiguration | €6.000 (einmalig) |
| Schulung (5 Personen) | €1.500 (einmalig) |
| Wartung und Updates | €3.000/Jahr |
| Investition Jahr 1 | €18.800 |
| Ab Jahr 2 | €3.000 |
Für die Budgetplanung von KI-Projekten ist Haystack RAG ein überschaubares Investment mit schnellem Payback.
Erweiterte Funktionen
Wer das Basis-System einmal hat, kann schrittweise erweitern:
Automatische Fristenverwaltung: Haystack extrahiert Laufzeiten und Kündigungsfristen aus allen Verträgen und erstellt eine zentrale Fristenliste mit automatischen E-Mail-Reminders 90, 60 und 30 Tage vor Ablauf.
Vertragsvergleich: Zwei Verträge hochladen und die Unterschiede hervorheben lassen – besonders nützlich bei Vertragsverhandlungen und AGB-Änderungen.
Compliance-Screening: Alle Verträge automatisch auf das Vorhandensein bestimmter Klauseln prüfen (Datenschutz, Force Majeure, Haftungsbeschränkung). Fehlende Klauseln werden als Risiko markiert.
Vertragstemplate-Erstellung: Basierend auf den besten Klauseln aus bestehenden Verträgen schlägt das System optimale Formulierungen für neue Verträge vor.
Für die Anbindung an SAP (Vertragsdaten aus MM/SD) empfiehlt sich die RAG-Pipeline mit SAP-Integration.
Datenschutz und Vertraulichkeit
Verträge sind hochsensible Dokumente. Die lokale Haystack-Installation bietet maximale Sicherheit:
- Keine Cloud: Alle Daten bleiben auf dem eigenen Server
- LDAP-Integration: Nur berechtigte Mitarbeiter sehen Verträge ihrer Abteilung
- Audit Trail: Jede Suchanfrage wird protokolliert – wichtig für Compliance
- Verschlüsselung: Vektordatenbank und Dokumente auf verschlüsseltem Volume
Für die strategische Einordnung empfiehlt sich der KI-Leitfaden für Unternehmen.
FAQ
Wie viele Verträge kann Haystack RAG verarbeiten?
Technisch gibt es kein Limit. Praktisch verarbeiten mittelständische Installationen 1.000-10.000 Verträge problemlos. Die Suchzeit bleibt unter 2 Sekunden, auch bei 10.000 Dokumenten. Ab 50.000 Dokumenten empfiehlt sich eine dedizierte Qdrant-Instanz.
Erkennt das System auch gescannte Papierverträge?
Ja, über OCR mit PaddleOCR oder Tesseract 5. Die Erkennungsrate bei maschinengeschriebenen Verträgen liegt bei 97-99%. Handschriftliche Ergänzungen oder Unterschriften werden erkannt, aber nicht als Text indexiert.
Wie genau sind die Antworten bei juristischen Fragen?
Die Genauigkeit hängt von der Chunk-Größe und dem Retrieval ab. Bei gut konfigurierten Systemen finden 94-97% der Anfragen die richtige Passage. Jede Antwort enthält die Quellenangabe (Dokument, Seite), sodass Juristen die Antwort verifizieren können.
Kann ich Haystack auch für andere Dokumente nutzen?
Ja. Das gleiche System eignet sich für Normen (DIN, ISO), technische Dokumentation, Patente, Gutachten und interne Richtlinien. Die Vertragssuche ist nur ein Anwendungsfall der RAG-Architektur.
Brauche ich Programmierkenntnisse für Haystack?
Für die Ersteinrichtung ja – Python-Grundkenntnisse sind nötig. Für den täglichen Betrieb nicht. Die Benutzeroberfläche (Streamlit oder Open WebUI) funktioniert wie ein Chat. Neue Dokumente werden per Drag-and-Drop hinzugefügt.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
RAG mit ChromaDB: Lokale Wissensdatenbank bauen
RAG-Pipeline mit ChromaDB lokal aufsetzen: Self-hosted Wissensdatenbank für den Mittelstand. Unter 2.000 € und 85% weniger Halluzinationen.
KI für AGB-Prüfung: Klauseln automatisch bewerten
KI prüft AGB-Klauseln automatisch auf Risiken: 94 % Erkennungsrate, 12 Minuten statt 3 Stunden pro Vertrag. RAG-System mit deutschem Rechtskorpus.
DSGVO-konforme KI im Gesundheitswesen: 120.000€ Ersparnis durch lokale Lösungen 2026
DSGVO-konforme KI im deutschen Gesundheitswesen. Erreichen Sie 120.000€ Ersparnis mit lokalen KI-Lösungen, die den US-Datentransfer vermeiden. Praxisleitfaden 2026.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)