Published on

Multimodale KI: Text, Bild, Audio und Video für Prozessautomatisierung im Mittelstand

Authors

Warum Multimodal – warum jetzt?

Unternehmen arbeiten selten nur mit Text. Scanner-PDFs, Fotos aus der Fertigung, Sprachnachrichten, Schulungsvideos – relevante Information steckt in vielen Kanälen. Moderne multimodale Modelle kombinieren Text, Bild, Audio und Video und schließen damit Automatisierungslücken, die reine Text-LLMs nicht erreichen.

Reifegrad 2025:

  • Vision-LLMs (z. B. Llama‑3.2‑Vision, Qwen2‑VL) erkennen Layout, Tabellen, Diagramme
  • ASR‑Modelle (z. B. Whisper‑large‑v3) bieten robuste deutsche Transkription
  • Long‑Context‑Modelle verarbeiten mehrseitige Dokumente und längere Gespräche
  • Tool‑Use & RAG verbinden Modelle mit Unternehmenswissen und Systemen

Referenzarchitektur: Vom Signal zur Entscheidung

sources:
  - email_inbox: Rechnungen, Lieferscheine (PDF, Scan)
  - field_app: Fotos/Videos aus Service & Produktion
  - hotline: Audio-Mitschnitte (WAV/MP3)

pipeline:
  - ingest: S3/Blob + Ereignisse (Event Grid)
  - preprocess:
      ocr: pdf->image->ocr (Tesseract/DocIntelligence)
      asr: whisper-large-v3 (de-DE)
      frames: video->keyframes (ffmpeg)
  - multimodal_rag:
      embeddings: text + vision embeddings
      index: pgvector/Chroma
  - reasoning:
      llm: llama-3.2-vision-instruct (lokal via Ollama)
      tools: sap_api, ticketing_api, email_api
  - guardrails: pii-redaction, policy checks
  - actions: buchen/freigeben/erstellen (SAP, Jira, E-Mail)
observability:
  - metrics: Prometheus/Grafana
  - audit: immutable logs (Art. 30 DSGVO)

Anwendungsfälle (DE‑Beispiele)

1) Rechnungsprüfung & Wareneingang (Bild + Text)

  • Lieferschein‑Foto + Rechnung (Scan‑PDF) werden zusammengeführt
  • Vision‑LLM liest Positionen, vergleicht Mengen/Preise, Kennzeichnet Abweichungen
  • Ergebnis: Vorkontierung oder Freigabevorschlag in SAP

2) Service & Qualitätssicherung (Bild/Video)

  • Techniker:innen laden Fehlerfotos hoch, Modell erkennt Bauteile/Defekte
  • Video‑Keyframes + kurze Zusammenfassung → Wissensdatenbank
  • KPI: Erstlösungsquote, Mean‑Time‑to‑Repair

3) Hotline/Support (Audio → Text → Automatisierung)

  • Whisper transkribiert Gespräche (de‑DE), LLM klassifiziert Intents, extrahiert Pflichtfelder
  • Automatisches Ticket mit strukturierter Zusammenfassung + Nächste Schritte

4) Lern- & Compliance‑Inhalte (Video + Dokumente)

  • Schulungsvideos werden kapitelweise zusammengefasst
  • Prüfungsfragen generiert, Nachweise (Wer hat was gesehen?) dokumentiert

Bausteine & Werkzeuge

  • ASR (Audio): OpenAI Whisper, Distil‑Whisper (schneller), Vosk (on‑prem)
  • Vision (Bild/Scan): Llama‑3.2‑Vision (lokal), Qwen2‑VL, DocIntelligence (Layout + OCR)
  • Video: ffmpeg (Frames + Audio), LLaVA‑OneVision‑artige Pipelines
  • RAG/Index: pgvector, Chroma, Milvus; Hybrid (Text + Bild‑Embeddings)
  • Orchestrierung: OpenWebUI‑Tools, LangGraph, Prefect/Dagster
  • Hosting: Ubuntu‑Server, Ollama für lokale Modelle, NGINX/Keycloak für Enterprise

Datenqualität & Prompting – pragmatisch

  • Für Vision‑Aufgaben 2–3 Beispielbilder je Klasse als Few‑Shot genügt oft
  • Layout‑Varianten explizit beschreiben (z. B. „Betrag mit ‚€‘ oder ‚EUR‘“)
  • Für Audio: Mikrofonqualität > Modellgröße – Grundrauschen minimieren
  • RAG: Einheitliche Texterzeugung (OCR‑Normalisierung), Chunking 400–800 Tokens

Sicherheit & DSGVO

  • Data Residency: Speicherung in EU/Deutschland, Schlüssel im Key Vault
  • PII‑Redaction: vor Einbettung/Indexierung, konfigurierbare Felder (IBAN, Personalnummer)
  • Audit‑Trail: unveränderliche Logs mit Benutzer, Zweck, Rechtsgrundlage
  • Rollenkonzept: Upload/Export getrennt, Freigaben per Vier‑Augen‑Prinzip

Beispiel: Multimodale Rechnungsmatching‑Funktion (Python)

from PIL import Image
import whisper
import requests

# 1) OCR/ASR vorbereiten
asr = whisper.load_model('large-v3')

# 2) Audio -> Text (Hotline)
text_call = asr.transcribe('call.wav', language='de')['text']

# 3) Vision-LLM (lokal via Ollama HTTP)
def vision_qa(image_path, question):
    img = Image.open(image_path)
    # Bild als Base64 kodieren, dann Vision-LLM anfragen (Pseudo)
    resp = requests.post('http://localhost:11434/api/generate', json={
        'model': 'llama-3.2-vision',
        'prompt': f"<image>{image_path}</image>\n{question}",
        'stream': False,
    }).json()
    return resp['response']

invoice_no = vision_qa('rechnung.jpg', 'Lies die Rechnungsnummer (DE-Format).')
amount = vision_qa('rechnung.jpg', 'Was ist der Bruttobetrag in EUR?')

# 4) Abgleich mit Lieferschein (PDF → OCR bereits erledigt)
matched = amount in open('lieferschein.txt').read()

# 5) Ergebnis
decision = 'FREIGABE' if matched else 'KLÄRUNG'
print({'invoice_no': invoice_no, 'amount': amount, 'decision': decision, 'summary': text_call[:240]})

Kosten & TCO – quick & dirty

  • Lokales Setup (1× RTX 4090): 8.000 € HW, ~650 €/J Strom/Jahr → ~1.450 €/J Betrieb
  • Cloud‑ASR + Vision‑API: 0,006–0,03 €/Minute Audio, 0,002–0,02 €/Bild → skaliert linear
  • Break‑Even: ab ~30–50k Vorgängen/Jahr lohnt lokale Pipeline (abhängig von Latenz & Datenschutz)

Implementierungsfahrplan (90 Tage)

  1. Wochen 1–2: Use‑Cases priorisieren (Rechnung, Hotline, Service‑Fotos), PoC‑Stack (OpenWebUI + Ollama)
  2. Wochen 3–6: RAG‑Index, Guardrails (PII‑Redaction), KPI‑Definition (Trefferquote, Durchlaufzeit)
  3. Wochen 7–10: Integration SAP/Jira/SharePoint, RBAC/SSO, Monitoring, Backups
  4. Wochen 11–12: UAT, Schulung, Go‑Live; Parallelbetrieb mit manueller Stichprobe

KPIs & Monitoring

  • Extraktionsgenauigkeit (Felder), Intent‑Trefferquote (Hotline)
  • Dauer von Eingang → Entscheidung, Erstlösungsquote im Service
  • Anteil automatisierter Fälle, Abbruch‑/Fallback‑Rate

Fazit

Multimodale KI schließt Automatisierungslücken zwischen Scan‑PDF, Foto, Audio und Video. Mit einem pragmatischen Stack (OpenWebUI + Ollama + Whisper + Vision‑LLM + RAG) entstehen produktionstaugliche, DSGVO‑konforme Workflows – ohne Abhängigkeit von Public‑Cloud‑APIs. Brauchen Sie Unterstützung beim Aufbau einer multimodalen Pipeline? Wir liefern PoC → Produktion inkl. Security‑Hardening, KPI‑Monitoring und Schulung für Ihre Teams.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen