Published on

RAG für ISO-Handbuch: Normen per Chat abfragen

Authors

TL;DR

Ein RAG-System (Retrieval Augmented Generation) macht ISO-Handbücher, Verfahrensanweisungen und Normentexte per Chat durchsuchbar. Mitarbeiter stellen Fragen in natürlicher Sprache und erhalten präzise Antworten mit Quellenangabe aus dem QM-Dokumentenbestand. Die Audit-Vorbereitung beschleunigt sich um 60%, Normabweichungen in der Produktion sinken um 42%. Alles lokal, ohne Cloud.


Das Problem: Niemand liest das QM-Handbuch

Jedes zertifizierte Unternehmen hat ein QM-Handbuch. ISO 9001, ISO 14001, IATF 16949, ISO 27001. Dazu Verfahrensanweisungen, Arbeitsanweisungen, Prüfpläne und Formulare. Ein typisches mittelständisches Unternehmen mit ISO 9001 und ISO 14001 verwaltet 200-500 Dokumente mit zusammen 2.000-5.000 Seiten.

Die Realität: 78% der Mitarbeiter haben das QM-Handbuch seit der letzten Schulung nicht geöffnet. Bei Fragen zur Vorgehensweise fragen sie den Kollegen, den Vorgesetzten oder improvisieren. Im Audit wird das zum Problem: Der Auditor fragt nach einem Prozess, der Mitarbeiter kennt die dokumentierte Vorgehensweise nicht, Abweichung wird notiert.

Typische Konsequenzen mangelnder Normkenntnis:

SituationHäufigkeit/JahrKosten
Nebenabweichung im Audit3-8€2.000-5.000 (Korrekturmaßnahme)
Hauptabweichung im Audit0-2€8.000-25.000 (Nachaudit)
Prozessfehler durch Normunkenntnis15-30€500-3.000 pro Fehler
Kundenreklamation (Normverstoß)2-6€5.000-20.000 pro Fall

So funktioniert RAG für ISO-Handbücher

RAG kombiniert eine Vektordatenbank (zum Finden relevanter Textpassagen) mit einem LLM (zum Formulieren der Antwort). Der Mitarbeiter stellt eine Frage, das System findet die relevanten Abschnitte im QM-Handbuch und generiert eine verständliche Antwort mit Quellenverweis.

# RAG-System für ISO-Handbücher
system:
  name: "QM-Chat"
  zweck: "ISO-Normen und QM-Dokumente per Chat abfragen"

  dokumentenbestand:
    formate: ["PDF", "Word", "Excel", "PowerPoint"]
    typische_dokumente:
      - "ISO 9001:2015 QM-Handbuch"
      - "Verfahrensanweisungen (VA)"
      - "Arbeitsanweisungen (AA)"
      - "Prüfpläne und Prüfanweisungen"
      - "Formulare und Checklisten"
      - "Normentexte (ISO, DIN, IATF)"
    volumen: "200-500 Dokumente, 2.000-5.000 Seiten"

  architektur:
    embedding_modell: "nomic-embed-text (via Ollama)"
    vektordatenbank: "ChromaDB (lokal, Open Source)"
    llm: "Llama 3.1 8B (via Ollama)"
    chunk_size: "512 Tokens mit 64 Token Overlap"
    top_k: "5 relevanteste Chunks pro Anfrage"

  beispiel_anfrage:
    frage: "Wie oft müssen Messmittel kalibriert werden?"
    antwort: |
      Gemäß VA-07-03 'Prüfmittelüberwachung' Abschnitt 4.2:
      Messmittel sind nach dem festgelegten Kalibrierintervall zu
      kalibrieren. Die Standardintervalle betragen:
      - Messschieber: 12 Monate
      - Bügelmessschrauben: 12 Monate
      - Messuhren: 6 Monate
      - Koordinatenmessmaschine: 12 Monate

      Quelle: VA-07-03 Rev. 5, Seite 3, Stand 2025-09-15

  deployment:
    server: "On-Premise (GPU-Server oder CPU-only)"
    zugang: "Webbrowser (Progressive Web App)"
    authentifizierung: "LDAP/Active Directory"
    rechte: "Dokumentenzugriff nach Abteilung steuerbar"

Dokumentenverarbeitung: Vom PDF zum Vektor

Im ersten Schritt werden alle QM-Dokumente in Textchunks zerlegt. Jeder Chunk umfasst 512 Tokens (ca. 350 Wörter) mit 64 Tokens Überlappung zum vorherigen Chunk. Das Embedding-Modell (nomic-embed-text) wandelt jeden Chunk in einen 768-dimensionalen Vektor um und speichert ihn in ChromaDB.

Besonders bei ISO-Dokumenten ist die Chunk-Strategie entscheidend: Tabellen, Flussdiagramme und nummerierte Listen müssen als Einheit erhalten bleiben. Ein Chunk, der mitten in einer Tabelle abbricht, liefert unbrauchbare Antworten. Das System erkennt Dokumentenstrukturen und setzt Chunk-Grenzen an Abschnittsenden.

Antwortgenerierung mit Quellenangabe

Wenn ein Mitarbeiter eine Frage stellt, berechnet das System den Vektor der Frage und findet die 5 ähnlichsten Chunks in der Datenbank. Diese Chunks bilden den Kontext für das LLM. Der Prompt instruiert das Modell, ausschließlich auf Basis der gefundenen Quellen zu antworten und diese zu zitieren.

Die Quellenangabe ist für das QM unverzichtbar: Der Mitarbeiter sieht sofort, aus welchem Dokument (Name, Revision, Seite) die Information stammt. Bei widersprüchlichen Informationen zeigt das System beide Quellen und kennzeichnet die aktuellere.

Praxisbeispiel: Automobilzulieferer mit IATF 16949

Ein Automobilzulieferer aus Baden-Württemberg (220 Mitarbeiter, IATF 16949 zertifiziert) hat das RAG-System im Januar 2026 eingeführt. Der QM-Dokumentenbestand umfasst 380 Dokumente mit 4.200 Seiten.

Vorher: Der QM-Beauftragte beantwortete täglich 8-12 Anfragen zu Normanforderungen und Verfahrensanweisungen. Audit-Vorbereitungen dauerten 3 Wochen pro Audit.

Nachher:

  • Anfragen an QM-Beauftragten: -72% (von 10/Tag auf 2-3/Tag)
  • Audit-Vorbereitung: 1,2 Wochen statt 3 Wochen
  • Nebenabweichungen im letzten Audit: 2 statt 6 (Vorjahr)
  • Mitarbeiter-Akzeptanz: 67% nutzen das System mindestens 1x/Woche nach 3 Monaten

Der QM-Beauftragte verbringt die gewonnene Zeit mit proaktiver Prozessverbesserung statt reaktiver Fragenbeantwortung. Die Implementierung dauerte 4 Wochen.

Kosten und ROI

PositionKosten
GPU-Server (RTX 4060 Ti, On-Premise)€2.800 (einmalig)
Software-Setup und Dokumentenimport€8.000
Schulung (QM-Team + Key-User)€2.500
Jährliche Wartung (Updates, neue Dokumente)€3.600/Jahr
Jahr 1 Gesamt€16.900
Ab Jahr 2/Jahr€3.600

Die Einsparungen setzen sich zusammen aus: 40% Zeitersparnis QM-Beauftragter (€28.000/Jahr), reduzierte Auditkosten (€8.000/Jahr), weniger Prozessfehler (€15.000/Jahr). ROI im ersten Jahr: 200%. Ab Jahr 2: über 1.300%.

Für die detaillierte Kostenplanung empfehlen wir, den Dokumentenbestand vorab zu inventarisieren.

Technische Implementierung

Hardware-Anforderungen

Für ein RAG-System mit 5.000 Seiten genügt ein Server mit:

  • CPU: Intel i5 oder AMD Ryzen 5 (für Embedding ohne GPU)
  • GPU: NVIDIA RTX 4060 Ti (optional, beschleunigt Antwortgenerierung)
  • RAM: 32 GB
  • SSD: 500 GB

Ohne GPU dauert eine Antwort 8-12 Sekunden. Mit GPU unter 3 Sekunden. Für 10+ gleichzeitige Nutzer empfiehlt sich die GPU-Variante.

Software-Stack

Die komplette Lösung basiert auf Open-Source-Komponenten:

  • Ollama: LLM-Runtime für Llama 3.1 und Embedding-Modell
  • ChromaDB: Vektordatenbank (Python, SQLite-Backend)
  • LangChain: Orchestrierung von Dokumentenverarbeitung und Abfrage
  • Gradio oder Streamlit: Weboberfläche für den Chat

Alternativ nutzen Sie OpenWebUI als fertige Chatoberfläche mit integrierter RAG-Funktionalität.

Dokumenten-Update-Prozess

QM-Dokumente ändern sich regelmäßig. Das System benötigt einen Update-Prozess:

  1. Neues Dokument wird im QM-System freigegeben
  2. Automatischer Export ins RAG-Eingangsverzeichnis
  3. Nightly-Job: Neue Dokumente werden chunked und eingebettet
  4. Alte Revisionen werden in der Vektordatenbank als "veraltet" markiert

Für den umfassenden Einstieg in KI im Unternehmen bieten wir einen separaten Leitfaden.

Qualitätssicherung der Antworten

Ein RAG-System für Normtexte muss korrekte Antworten liefern. Halluzinationen sind inakzeptabel, wenn Mitarbeiter auf Basis der Antworten Entscheidungen treffen.

Maßnahmen gegen Halluzinationen:

  • Strikte Prompt-Anweisung: "Antworte ausschließlich auf Basis der bereitgestellten Quellen. Wenn keine Quelle die Frage beantwortet, sage das."
  • Temperatur des LLM auf 0,1 setzen (minimale Kreativität)
  • Jede Antwort enthält die Quellendokumente, sodass der Nutzer verifizieren kann
  • Regelmäßige Stichproben durch den QM-Beauftragten (10 Fragen/Woche)

In der Praxis liegt die Korrektheit bei 94-97% für direkte Fragen ("Wo steht die Verfahrensanweisung für XY?") und bei 88-92% für interpretative Fragen ("Muss ich bei Produkt X eine 100%-Prüfung durchführen?").

FAQ

Kann das System auch DIN- und ISO-Normentexte verarbeiten?

Ja, wenn Sie die Normen als PDF vorliegen haben. Beachten Sie das Urheberrecht: DIN-Normen dürfen intern genutzt, aber nicht extern verteilt werden. Das RAG-System verarbeitet die Texte nur intern.

Funktioniert das System auch ohne GPU?

Ja. Mit CPU-Only dauert eine Antwort 8-12 Sekunden statt 2-3 Sekunden. Für bis zu 5 gleichzeitige Nutzer ist das akzeptabel. Ab 10 Nutzern empfehlen wir GPU.

Wie aktuell sind die Antworten nach einer Normenänderung?

Neue Dokumente werden über den Nightly-Job innerhalb von 24 Stunden verfügbar. Für dringende Updates kann der QM-Beauftragte den Import manuell auslösen (Laufzeit: 5-10 Minuten für ein Dokument).

Was passiert, wenn das System eine falsche Antwort gibt?

Jede Antwort enthält die Quellenangabe. Der Nutzer kann die Originalstelle prüfen. Falsche Antworten werden gemeldet und als Trainingsdaten für die Prompt-Optimierung genutzt. Die Fehlerquote sinkt typischerweise von 8% auf 4% innerhalb der ersten 3 Monate.

Kann ich das System auch für andere Dokumentenbestände nutzen (z.B. Vertrieb, HR)?

Ja. Die RAG-Architektur ist dokumentenagnostisch. Separate Collections in ChromaDB ermöglichen getrennte Dokumentenbestände mit unterschiedlichen Zugriffsrechten. Ein System kann mehrere Abteilungen bedienen.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen

Bereit für KI im Mittelstand?

Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.

Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)