- Published on
KI für AGB-Prüfung: Klauseln automatisch bewerten
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Ein RAG-basiertes KI-System prüft Lieferanten-AGB automatisch auf unwirksame oder risikobehaftete Klauseln. Das System vergleicht jede Klausel gegen eine Datenbank mit BGH-Urteilen und BGB-Paragraphen. Mittelständler reduzieren den Prüfaufwand von 3 Stunden auf 12 Minuten pro Vertrag und erkennen 94 % aller problematischen Klauseln, die bisher übersehen wurden.
Das Problem: AGB prüfen kostet Zeit und Geld
Jeder Mittelständler bearbeitet dutzende Lieferantenverträge pro Monat. Ein Einkaufsleiter eines Maschinenbauers mit 350 Mitarbeitern berichtet: Pro Lieferanten-AGB benötigt die Rechtsabteilung 2,5–3,5 Stunden manuelle Prüfzeit. Bei 15 neuen oder geänderten Verträgen pro Monat summiert sich das auf 45 Stunden, was einem halben Vollzeit-Äquivalent entspricht.
Das eigentliche Risiko liegt aber in dem, was übersehen wird. Haftungsklauseln, die bei Vertragsschluss harmlos wirken, können bei einem Schadensfall existenzbedrohend sein. Ein Zulieferer im Automotive-Bereich übernahm unwissentlich eine Klausel, die ihn für Folgeschäden in unbegrenzter Höhe haftbar machte. Der Schaden: 280.000 € nach einem Produktionsausfall beim OEM. Die Klausel stand auf Seite 14 der AGB und wurde bei der manuellen Prüfung übersehen.
Die Kosten für KI-Projekte stehen in keinem Verhältnis zu solchen Risiken: Ein AGB-Prüfungssystem kostet einmalig 8.000–15.000 € und spart ab dem ersten Monat.
Wie KI AGB-Klauseln bewertet
Das System basiert auf Retrieval-Augmented Generation (RAG), einer Architektur, die Sprachmodelle mit einer externen Wissensdatenbank verbindet. Konkret funktioniert die KI AGB-Prüfung in vier Schritten:
Klausel-Extraktion: Die AGB werden in einzelne Klauseln zerlegt. Das System erkennt Abschnitte wie Haftung, Gewährleistung, Gerichtsstand, Eigentumsvorbehalte und Vertragsstrafen automatisch.
Rechtsrecherche: Für jede Klausel durchsucht das System eine Datenbank mit 12.000+ BGH-Urteilen, relevanten BGB-Paragraphen (§§ 305–310 BGB) und branchenspezifischen Musterklauseln.
Risikobewertung: Das LLM vergleicht die Klausel mit den gefundenen Rechtsquellen und vergibt eine Risikostufe: Grün (unbedenklich), Gelb (prüfenswert) oder Rot (hohes Risiko / möglicherweise unwirksam).
Handlungsempfehlung: Für gelbe und rote Klauseln generiert das System eine konkrete Begründung mit Verweis auf die relevante Rechtsquelle und einen Formulierungsvorschlag.
Technische Architektur
# agb_pruefung_config.yaml – RAG-System Konfiguration
system:
llm:
model: "meta-llama/Llama-3.3-70B-Instruct"
backend: "vllm"
temperature: 0.1
max_tokens: 2048
embedding:
model: "intfloat/multilingual-e5-large"
dimensions: 1024
vector_store:
type: "qdrant"
collection: "german_legal_corpus"
host: "localhost"
port: 6333
document_store:
sources:
- name: "bgb_305_310"
type: "pdf"
path: "./legal_data/bgb_agb_recht.pdf"
- name: "bgh_urteile"
type: "json"
path: "./legal_data/bgh_urteile_agb.json"
count: 12847
- name: "branchenklauseln"
type: "json"
path: "./legal_data/muster_klauseln_maschinenbau.json"
pipeline:
chunk_size: 512
chunk_overlap: 64
top_k: 8
reranker: "cross-encoder/ms-marco-MiniLM-L-12-v2"
Das System läuft vollständig on-premise. Vertragsdaten verlassen zu keinem Zeitpunkt das Unternehmen. Für die Basis-Infrastruktur eignet sich der vLLM-Server, der auch für andere KI-Anwendungen genutzt werden kann.
Praxisbeispiel: Kritische Klauseln erkennen
Das System wurde an einem realen AGB-Dokument eines Elektronik-Zulieferers getestet (18 Seiten, 47 Klauseln):
| Klauseltyp | Anzahl | Rot | Gelb | Grün |
|---|---|---|---|---|
| Haftungsbegrenzung | 6 | 2 | 3 | 1 |
| Gewährleistung | 5 | 1 | 2 | 2 |
| Vertragsstrafe | 3 | 2 | 1 | 0 |
| Eigentumsvorbehalte | 4 | 0 | 1 | 3 |
| Gerichtsstand | 2 | 0 | 0 | 2 |
| Sonstige | 27 | 1 | 4 | 22 |
| Gesamt | 47 | 6 | 11 | 30 |
Prüfdauer: 12 Minuten (vs. 3,2 Stunden manuell). Von den 6 roten Klauseln waren 5 nach manueller Nachprüfung durch einen Anwalt tatsächlich nach § 307 BGB unwirksam. Eine Klausel war ein False Positive (konservative Bewertung des Systems).
Typische Klauselrisiken im Mittelstand
Die häufigsten problematischen Klauseln, die das System bei Mittelständlern identifiziert:
Unbegrenzte Haftung für Folgeschäden: Lieferanten-AGB enthalten oft Klauseln wie "Der Auftragnehmer haftet für sämtliche direkte und indirekte Schäden". Nach § 309 Nr. 7 BGB ist ein vollständiger Haftungsausschluss für Körperschäden unwirksam, aber unbegrenzte Folgeschadenhaftung für den Auftragnehmer ist ein erhebliches Risiko.
Unangemessene Vertragsstrafen: Konventionalstrafen über 5 % des Auftragswerts pro Verzugswoche gelten laut BGH-Rechtsprechung als unangemessen hoch. Das System erkennt numerische Schwellenwerte und vergleicht sie mit der aktuellen Rechtsprechung.
Einseitige Eigentumsvorbehalte: Erweiterte Eigentumsvorbehalte, die dem Lieferanten Rechte an verarbeiteten Produkten einräumen, können die eigene Bilanz und Kreditwürdigkeit beeinflussen. Das System markiert solche Klauseln als gelb und empfiehlt eine betriebswirtschaftliche Prüfung.
Gerichtsstandvereinbarungen im Ausland: Klauseln, die einen Gerichtsstand außerhalb Deutschlands festlegen, erhöhen die Prozesskosten erheblich. Bei B2B-Verträgen sind solche Vereinbarungen zulässig, aber das System warnt vor den praktischen Konsequenzen.
Implementierung in 4 Schritten
Woche 1–2: Rechtskorpus aufbauen. Sammeln Sie BGH-Urteile zum AGB-Recht (frei verfügbar über juris oder OpenJur), BGB-Texte und Ihre bisherigen intern geprüften Verträge. Ziel: mindestens 5.000 Dokumente für die Vektordatenbank.
Woche 3: System aufsetzen. Installieren Sie Qdrant als Vektordatenbank, vLLM als LLM-Backend und eine Python-Pipeline für die Klausel-Extraktion. Die KI-Implementierungsanleitung beschreibt den generellen Prozess.
Woche 4: Kalibrierung. Testen Sie das System mit 20 bereits geprüften Verträgen. Vergleichen Sie die KI-Bewertungen mit den Einschätzungen Ihrer Rechtsabteilung. Passen Sie Schwellenwerte und Prompt-Templates an.
Woche 5: Pilotbetrieb. Nutzen Sie das System parallel zur manuellen Prüfung. Nach 10–15 Verträgen haben Sie genug Vertrauen für den produktiven Einsatz.
ROI-Berechnung
| Position | Betrag |
|---|---|
| Hardware (GPU-Server oder vorhandener Server) | 2.400–8.000 € |
| Software (Open Source) | 0 € |
| Aufbau Rechtskorpus (60 Std. intern) | 5.100 € |
| Kalibrierung & Test (30 Std.) | 2.550 € |
| Investition gesamt | 10.050–15.650 € |
| Zeitersparnis Rechtsabteilung (540 Std./Jahr) | 45.900 €/Jahr |
| Vermiedene Risiken (konservativ geschätzt) | 20.000 €/Jahr |
| Einsparung gesamt | 65.900 €/Jahr |
| Amortisation | 2,2–2,8 Monate |
Die ROI-Berechnungsvorlage hilft bei der Kalkulation für Ihren spezifischen Fall.
Grenzen des Systems
KI ersetzt keinen Anwalt. Das System ist ein Vorfilter: Es identifiziert problematische Klauseln und priorisiert die manuelle Prüfung. Wichtige Einschränkungen:
- Neue Rechtslagen: Das System kennt nur Urteile in seiner Datenbank. Quartalsweise Updates sind notwendig.
- Branchenkontext: Eine Klausel, die im Maschinenbau üblich ist, kann im Pharmabereich problematisch sein. Branchenspezifische Kalibrierung ist wichtig.
- Vertragsverhandlungen: Das System bewertet Klauseln isoliert. Gesamtvertragliche Abhängigkeiten zwischen Klauseln kann es nur begrenzt erfassen.
- Komplexe Sachverhalte: Bei neuartigen Vertragskonstellationen fehlen Referenz-Urteile. Hier bleibt menschliche Expertise unverzichtbar.
Der KI-Komplett-Leitfaden behandelt weitere Anwendungsfälle im Bereich Dokumentenverarbeitung.
FAQ
Kann die KI auch englischsprachige AGB prüfen? Ja, multilingual-e5-large unterstützt englische Texte. Die Rechtsgrundlage muss dann allerdings angepasst werden, da BGH-Urteile nur für deutsches Recht gelten. Für internationale Verträge empfiehlt sich ein separates Rechtskorpus.
Wie aktuell ist die Rechtsprechungsdatenbank? Sie aktualisieren die Datenbank selbst. Neue BGH-Urteile erscheinen auf OpenJur kostenlos. Ein quartalsweiser Import dauert 2–3 Stunden und fügt typischerweise 50–100 neue relevante Urteile hinzu.
Funktioniert das System auch für Mietverträge oder Arbeitsverträge? Prinzipiell ja, aber das Rechtskorpus muss angepasst werden. AGB-Recht (§§ 305–310 BGB) unterscheidet sich von Mietrecht oder Arbeitsrecht. Pro Vertragstyp rechnen Sie mit 2–3 Wochen Aufbauarbeit.
Wie hoch ist die Fehlerquote? In unseren Tests lag die False-Negative-Rate bei 6 % (problematische Klauseln, die als grün bewertet wurden) und die False-Positive-Rate bei 8 %. Das System ist bewusst konservativ kalibriert: Im Zweifel markiert es eine Klausel als gelb statt grün.
Brauche ich juristisches Fachwissen für die Einrichtung? Für die Kalibrierungsphase ja. Die initiale Bewertung von 20 Testverträgen sollte durch jemanden mit juristischem Verständnis erfolgen. Danach läuft das System selbstständig, mit quartalsweiser Überprüfung.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
DSGVO-konforme KI im Gesundheitswesen: 120.000€ Ersparnis durch lokale Lösungen 2026
DSGVO-konforme KI im deutschen Gesundheitswesen. Erreichen Sie 120.000€ Ersparnis mit lokalen KI-Lösungen, die den US-Datentransfer vermeiden. Praxisleitfaden 2026.
Lagerlogistik Vision AI: Bestandserkennung mit lokaler KI für +100.000€ Einsparung 2026
Entdecken Sie, wie Lagerlogistik Vision AI mittels lokaler KI Ihre Bestandserkennung revolutioniert. Erreichen Sie über 100.000€ Einsparung und automatisieren Sie Inventuren 2026.
KI für Fertigungsdokumentation: Technische Zeichnungen verstehen & nutzen 2026
KI versteht technische Zeichnungen im Maschinenbau: Stücklisten extrahieren, Wissen sichern und Stillstandzeiten um 20% senken. Ihr Weg zur automatisierten Fertigungsdokumentation 2026.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)