Published on

Haystack RAG: Verträge durchsuchbar machen

Authors

TL;DR

Deepset Haystack macht Vertragsarchive per natürlicher Sprache durchsuchbar. Juristen und Vertragsmanager finden relevante Klauseln, Fristen und Konditionen in 15 Sekunden statt 45 Minuten manueller Suche. Das Open-Source-Framework läuft on-premise und eignet sich besonders für Mittelständler mit 500+ Verträgen, die keine Cloud-Lösung für sensible Dokumente wollen.


Das Vertragschaos im Mittelstand

Deutsche Mittelständler verwalten durchschnittlich 800-3.000 aktive Verträge: Kundenverträge, Lieferantenrahmenverträge, Mietverträge, Arbeitsverträge, NDAs, Wartungsverträge und Versicherungspolicen. Diese Verträge liegen verteilt in E-Mail-Archiven, SharePoint-Ordnern, lokalen Laufwerken und manchmal noch in Aktenordnern.

Das Problem wird akut, wenn eine konkrete Frage auftaucht: „In welchen Verträgen haben wir eine Preisanpassungsklausel mit Indexbindung?" oder „Welche Lieferantenverträge laufen im Q3 2026 aus?"

Die manuelle Suche dauert 30-90 Minuten pro Anfrage. Bei einer Rechtsabteilung mit 15-20 solcher Anfragen pro Woche summiert sich das auf 30-60 Stunden verlorene Arbeitszeit pro Monat – das sind €4.500-9.000 monatlich bei einem Stundensatz von €150 für Juristen.

SuchszenarioManuellMit Haystack RAG
Klausel in einem Vertrag finden15 min10 Sekunden
Klausel über alle Verträge suchen45-90 min15 Sekunden
Fristenliste erstellen2-4 Stunden30 Sekunden
Vertragsvergleich (2 Verträge)60-90 min2 Minuten
Compliance-Check (alle Verträge)2-3 Tage15 Minuten

Warum Haystack und nicht ChatGPT?

ChatGPT oder Claude können keine 2.000 Verträge gleichzeitig durchsuchen. Sie haben ein begrenztes Kontextfenster und die Verträge müssten in die Cloud hochgeladen werden – für juristische Dokumente oft ausgeschlossen.

Haystack von Deepset (ein deutsches Unternehmen aus Berlin) löst dieses Problem mit Retrieval-Augmented Generation (RAG): Die Verträge werden lokal indexiert, bei einer Frage werden nur die relevanten Passagen abgerufen und dem LLM als Kontext übergeben.

Vorteile von Haystack:

  • Open Source (Apache 2.0 Lizenz)
  • Läuft komplett on-premise
  • Deutsches Unternehmen (Support auf Deutsch)
  • Modular: Jede Komponente austauschbar
  • Pipeline-basiert: Komplexe Workflows abbildbar

Technische Architektur

haystack_vertragssuche:
  dokumenten_pipeline:
    formate: [pdf, docx, jpg_scans, msg_email_anhaenge]
    vorverarbeitung:
      ocr: paddleocr_oder_tesseract
      pdf_parsing: pypdf2_plus_docling
      cleaning: whitespace_normalisierung
    chunking:
      methode: recursive_character_splitter
      chunk_size: 1000_zeichen
      overlap: 200_zeichen
      metadata: [vertragsnummer, vertragstyp, parteien, datum]
  embedding:
    modell: intfloat/multilingual-e5-large
    dimension: 1024
    vektordatenbank: qdrant
    index_typ: hnsw
  retrieval:
    top_k: 10
    reranker: cross-encoder/ms-marco-MiniLM-L-12-v2
    filter: [vertragstyp, datum_bereich, partei]
  llm:
    modell: mistral-7b-instruct_oder_llama3-8b
    hosting: lokal_via_ollama
    temperatur: 0.1
    max_tokens: 2048
    system_prompt: juristisch_praezise_antworten
  frontend:
    framework: streamlit_oder_open_webui
    features:
      - freitext_suche
      - filter_nach_vertragstyp
      - quellenangabe_mit_seitenzahl
      - export_als_pdf
  sicherheit:
    authentifizierung: ldap_active_directory
    berechtigungen: rollenbasiert
    audit_log: alle_anfragen_protokolliert

Implementierung in 6 Wochen

Woche 1-2: Datenvorbereitung

Der aufwändigste Schritt: Alle Verträge digital und an einem Ort sammeln.

  • SharePoint-Ordner, Netzlaufwerke und E-Mail-Archive systematisch durchsuchen
  • Papierverträge scannen (OCR-fähig, 300 dpi)
  • Metadaten ergänzen: Vertragstyp, Parteien, Laufzeit, Kündigungsfristen
  • Erfahrungswert: 60% der Verträge liegen bereits digital vor

Woche 3-4: System aufsetzen

  • Haystack-Pipeline installieren und konfigurieren
  • Qdrant als Vektordatenbank einrichten
  • LLM (Mistral 7B) via Ollama bereitstellen
  • Dokumente indexieren (1.000 Verträge: ca. 2 Stunden)
  • Erste Testfragen mit Juristen durchführen

Woche 5: Optimierung

  • Chunking-Parameter anpassen (juristische Dokumente brauchen größere Chunks)
  • Reranker-Modell fine-tunen auf juristische Texte
  • Metadaten-Filter einrichten (Vertragstyp, Laufzeit, Partei)
  • Berechtigungskonzept umsetzen (nicht jeder darf alle Verträge sehen)

Woche 6: Rollout

  • Schulung für Rechtsabteilung und Vertragsmanagement (3 Stunden)
  • Parallelbetrieb: 2 Wochen neue Suche neben alter Methode
  • Feedback sammeln und letzte Anpassungen vornehmen

Die KI-Implementierung sollte mit den wichtigsten Vertragstypen starten und schrittweise erweitern.

Praxisbeispiel: Automobilzulieferer aus Bayern

Ein Automobilzulieferer mit 350 Mitarbeitern und einer Rechtsabteilung mit 2 Juristen implementierte Haystack RAG für sein Vertragsarchiv.

Ausgangslage:

  • 2.200 aktive Verträge (Kunden, Lieferanten, Immobilien, Personal)
  • Verträge verteilt auf SharePoint, Netzlaufwerk und 3 Aktenordner
  • 25 Vertragsanfragen pro Woche aus Einkauf, Vertrieb und Geschäftsführung
  • Durchschnittliche Bearbeitungszeit: 35 Minuten pro Anfrage

Ergebnis nach 3 Monaten:

  • Bearbeitungszeit: 2-5 Minuten pro Anfrage (-90%)
  • Juristen-Kapazität: 18 Stunden/Woche frei für wertschöpfende Arbeit
  • Vertragserneuerungen: Keine vergessene Frist mehr (automatische Alerts)
  • Einsparung: €54.000/Jahr (Zeitersparnis × Juristen-Stundensatz)

Das System beantwortete auch Fragen, die vorher gar nicht gestellt wurden – weil der Aufwand zu hoch gewesen wäre. Zum Beispiel: „In welchen Verträgen fehlt eine Force-Majeure-Klausel?"

Die ROI-Berechnung berücksichtigte neben der Zeitersparnis auch vermiedene Risiken durch vergessene Fristen.

Kosten und Hardware

PositionBetrag
Server-Hardware (RTX 4090, 64 GB RAM)€5.800 (einmalig)
Dokumenten-Digitalisierung (500 Papierverträge)€2.500 (einmalig)
Setup und Konfiguration€6.000 (einmalig)
Schulung (5 Personen)€1.500 (einmalig)
Wartung und Updates€3.000/Jahr
Investition Jahr 1€18.800
Ab Jahr 2€3.000

Für die Budgetplanung von KI-Projekten ist Haystack RAG ein überschaubares Investment mit schnellem Payback.

Erweiterte Funktionen

Wer das Basis-System einmal hat, kann schrittweise erweitern:

Automatische Fristenverwaltung: Haystack extrahiert Laufzeiten und Kündigungsfristen aus allen Verträgen und erstellt eine zentrale Fristenliste mit automatischen E-Mail-Reminders 90, 60 und 30 Tage vor Ablauf.

Vertragsvergleich: Zwei Verträge hochladen und die Unterschiede hervorheben lassen – besonders nützlich bei Vertragsverhandlungen und AGB-Änderungen.

Compliance-Screening: Alle Verträge automatisch auf das Vorhandensein bestimmter Klauseln prüfen (Datenschutz, Force Majeure, Haftungsbeschränkung). Fehlende Klauseln werden als Risiko markiert.

Vertragstemplate-Erstellung: Basierend auf den besten Klauseln aus bestehenden Verträgen schlägt das System optimale Formulierungen für neue Verträge vor.

Für die Anbindung an SAP (Vertragsdaten aus MM/SD) empfiehlt sich die RAG-Pipeline mit SAP-Integration.

Datenschutz und Vertraulichkeit

Verträge sind hochsensible Dokumente. Die lokale Haystack-Installation bietet maximale Sicherheit:

  • Keine Cloud: Alle Daten bleiben auf dem eigenen Server
  • LDAP-Integration: Nur berechtigte Mitarbeiter sehen Verträge ihrer Abteilung
  • Audit Trail: Jede Suchanfrage wird protokolliert – wichtig für Compliance
  • Verschlüsselung: Vektordatenbank und Dokumente auf verschlüsseltem Volume

Für die strategische Einordnung empfiehlt sich der KI-Leitfaden für Unternehmen.

FAQ

Wie viele Verträge kann Haystack RAG verarbeiten?

Technisch gibt es kein Limit. Praktisch verarbeiten mittelständische Installationen 1.000-10.000 Verträge problemlos. Die Suchzeit bleibt unter 2 Sekunden, auch bei 10.000 Dokumenten. Ab 50.000 Dokumenten empfiehlt sich eine dedizierte Qdrant-Instanz.

Erkennt das System auch gescannte Papierverträge?

Ja, über OCR mit PaddleOCR oder Tesseract 5. Die Erkennungsrate bei maschinengeschriebenen Verträgen liegt bei 97-99%. Handschriftliche Ergänzungen oder Unterschriften werden erkannt, aber nicht als Text indexiert.

Wie genau sind die Antworten bei juristischen Fragen?

Die Genauigkeit hängt von der Chunk-Größe und dem Retrieval ab. Bei gut konfigurierten Systemen finden 94-97% der Anfragen die richtige Passage. Jede Antwort enthält die Quellenangabe (Dokument, Seite), sodass Juristen die Antwort verifizieren können.

Kann ich Haystack auch für andere Dokumente nutzen?

Ja. Das gleiche System eignet sich für Normen (DIN, ISO), technische Dokumentation, Patente, Gutachten und interne Richtlinien. Die Vertragssuche ist nur ein Anwendungsfall der RAG-Architektur.

Brauche ich Programmierkenntnisse für Haystack?

Für die Ersteinrichtung ja – Python-Grundkenntnisse sind nötig. Für den täglichen Betrieb nicht. Die Benutzeroberfläche (Streamlit oder Open WebUI) funktioniert wie ein Chat. Neue Dokumente werden per Drag-and-Drop hinzugefügt.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)