- Published on
Multimodale KI: Text, Bild, Audio und Video für Prozessautomatisierung im Mittelstand
- Authors
- Name
- Phillip Pham
- @ddppham
Warum Multimodal – warum jetzt?
Unternehmen arbeiten selten nur mit Text. Scanner-PDFs, Fotos aus der Fertigung, Sprachnachrichten, Schulungsvideos – relevante Information steckt in vielen Kanälen. Moderne multimodale Modelle kombinieren Text, Bild, Audio und Video und schließen damit Automatisierungslücken, die reine Text-LLMs nicht erreichen.
Reifegrad 2025:
- Vision-LLMs (z. B. Llama‑3.2‑Vision, Qwen2‑VL) erkennen Layout, Tabellen, Diagramme
- ASR‑Modelle (z. B. Whisper‑large‑v3) bieten robuste deutsche Transkription
- Long‑Context‑Modelle verarbeiten mehrseitige Dokumente und längere Gespräche
- Tool‑Use & RAG verbinden Modelle mit Unternehmenswissen und Systemen
Referenzarchitektur: Vom Signal zur Entscheidung
sources:
- email_inbox: Rechnungen, Lieferscheine (PDF, Scan)
- field_app: Fotos/Videos aus Service & Produktion
- hotline: Audio-Mitschnitte (WAV/MP3)
pipeline:
- ingest: S3/Blob + Ereignisse (Event Grid)
- preprocess:
ocr: pdf->image->ocr (Tesseract/DocIntelligence)
asr: whisper-large-v3 (de-DE)
frames: video->keyframes (ffmpeg)
- multimodal_rag:
embeddings: text + vision embeddings
index: pgvector/Chroma
- reasoning:
llm: llama-3.2-vision-instruct (lokal via Ollama)
tools: sap_api, ticketing_api, email_api
- guardrails: pii-redaction, policy checks
- actions: buchen/freigeben/erstellen (SAP, Jira, E-Mail)
observability:
- metrics: Prometheus/Grafana
- audit: immutable logs (Art. 30 DSGVO)
Anwendungsfälle (DE‑Beispiele)
1) Rechnungsprüfung & Wareneingang (Bild + Text)
- Lieferschein‑Foto + Rechnung (Scan‑PDF) werden zusammengeführt
- Vision‑LLM liest Positionen, vergleicht Mengen/Preise, Kennzeichnet Abweichungen
- Ergebnis: Vorkontierung oder Freigabevorschlag in SAP
2) Service & Qualitätssicherung (Bild/Video)
- Techniker:innen laden Fehlerfotos hoch, Modell erkennt Bauteile/Defekte
- Video‑Keyframes + kurze Zusammenfassung → Wissensdatenbank
- KPI: Erstlösungsquote, Mean‑Time‑to‑Repair
3) Hotline/Support (Audio → Text → Automatisierung)
- Whisper transkribiert Gespräche (de‑DE), LLM klassifiziert Intents, extrahiert Pflichtfelder
- Automatisches Ticket mit strukturierter Zusammenfassung + Nächste Schritte
4) Lern- & Compliance‑Inhalte (Video + Dokumente)
- Schulungsvideos werden kapitelweise zusammengefasst
- Prüfungsfragen generiert, Nachweise (Wer hat was gesehen?) dokumentiert
Bausteine & Werkzeuge
- ASR (Audio): OpenAI Whisper, Distil‑Whisper (schneller), Vosk (on‑prem)
- Vision (Bild/Scan): Llama‑3.2‑Vision (lokal), Qwen2‑VL, DocIntelligence (Layout + OCR)
- Video: ffmpeg (Frames + Audio), LLaVA‑OneVision‑artige Pipelines
- RAG/Index: pgvector, Chroma, Milvus; Hybrid (Text + Bild‑Embeddings)
- Orchestrierung: OpenWebUI‑Tools, LangGraph, Prefect/Dagster
- Hosting: Ubuntu‑Server, Ollama für lokale Modelle, NGINX/Keycloak für Enterprise
Datenqualität & Prompting – pragmatisch
- Für Vision‑Aufgaben 2–3 Beispielbilder je Klasse als Few‑Shot genügt oft
- Layout‑Varianten explizit beschreiben (z. B. „Betrag mit ‚€‘ oder ‚EUR‘“)
- Für Audio: Mikrofonqualität > Modellgröße – Grundrauschen minimieren
- RAG: Einheitliche Texterzeugung (OCR‑Normalisierung), Chunking 400–800 Tokens
Sicherheit & DSGVO
- Data Residency: Speicherung in EU/Deutschland, Schlüssel im Key Vault
- PII‑Redaction: vor Einbettung/Indexierung, konfigurierbare Felder (IBAN, Personalnummer)
- Audit‑Trail: unveränderliche Logs mit Benutzer, Zweck, Rechtsgrundlage
- Rollenkonzept: Upload/Export getrennt, Freigaben per Vier‑Augen‑Prinzip
Beispiel: Multimodale Rechnungsmatching‑Funktion (Python)
from PIL import Image
import whisper
import requests
# 1) OCR/ASR vorbereiten
asr = whisper.load_model('large-v3')
# 2) Audio -> Text (Hotline)
text_call = asr.transcribe('call.wav', language='de')['text']
# 3) Vision-LLM (lokal via Ollama HTTP)
def vision_qa(image_path, question):
img = Image.open(image_path)
# Bild als Base64 kodieren, dann Vision-LLM anfragen (Pseudo)
resp = requests.post('http://localhost:11434/api/generate', json={
'model': 'llama-3.2-vision',
'prompt': f"<image>{image_path}</image>\n{question}",
'stream': False,
}).json()
return resp['response']
invoice_no = vision_qa('rechnung.jpg', 'Lies die Rechnungsnummer (DE-Format).')
amount = vision_qa('rechnung.jpg', 'Was ist der Bruttobetrag in EUR?')
# 4) Abgleich mit Lieferschein (PDF → OCR bereits erledigt)
matched = amount in open('lieferschein.txt').read()
# 5) Ergebnis
decision = 'FREIGABE' if matched else 'KLÄRUNG'
print({'invoice_no': invoice_no, 'amount': amount, 'decision': decision, 'summary': text_call[:240]})
Kosten & TCO – quick & dirty
- Lokales Setup (1× RTX 4090): 8.000 € HW, ~650 €/J Strom/Jahr → ~1.450 €/J Betrieb
- Cloud‑ASR + Vision‑API: 0,006–0,03 €/Minute Audio, 0,002–0,02 €/Bild → skaliert linear
- Break‑Even: ab ~30–50k Vorgängen/Jahr lohnt lokale Pipeline (abhängig von Latenz & Datenschutz)
Implementierungsfahrplan (90 Tage)
- Wochen 1–2: Use‑Cases priorisieren (Rechnung, Hotline, Service‑Fotos), PoC‑Stack (OpenWebUI + Ollama)
- Wochen 3–6: RAG‑Index, Guardrails (PII‑Redaction), KPI‑Definition (Trefferquote, Durchlaufzeit)
- Wochen 7–10: Integration SAP/Jira/SharePoint, RBAC/SSO, Monitoring, Backups
- Wochen 11–12: UAT, Schulung, Go‑Live; Parallelbetrieb mit manueller Stichprobe
KPIs & Monitoring
- Extraktionsgenauigkeit (Felder), Intent‑Trefferquote (Hotline)
- Dauer von Eingang → Entscheidung, Erstlösungsquote im Service
- Anteil automatisierter Fälle, Abbruch‑/Fallback‑Rate
Fazit
Multimodale KI schließt Automatisierungslücken zwischen Scan‑PDF, Foto, Audio und Video. Mit einem pragmatischen Stack (OpenWebUI + Ollama + Whisper + Vision‑LLM + RAG) entstehen produktionstaugliche, DSGVO‑konforme Workflows – ohne Abhängigkeit von Public‑Cloud‑APIs. Brauchen Sie Unterstützung beim Aufbau einer multimodalen Pipeline? Wir liefern PoC → Produktion inkl. Security‑Hardening, KPI‑Monitoring und Schulung für Ihre Teams.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
KI Qualitätskontrolle: Automatische Fehlererkennung in der Produktion
Wie mittelständische Fertiger mit Computer Vision (OpenCV/TensorFlow) Oberflächenfehler, Montagefehler und Maßabweichungen automatisch erkennen – mit ROI-Kennzahlen, Referenzarchitektur und praxisnahen Beispielen.
KI im Gesundheitswesen: Kompletter Guide 2025
KI im Gesundheitswesen: Umfassender Guide für deutsche Unternehmen. Lernen Sie praktische Implementierung, ROI und Compliance mit DSGVO/AI-Act für optimale Patientenversorgung.
OpenWebUI: Private KI-Chatbots im Unternehmen – DSGVO-konform, flexibel, produktionsreif
Warum OpenWebUI eine ausgezeichnete Wahl für private, DSGVO-konforme KI-Chatbot-Umgebungen ist – mit Architektur, Best Practices und Fahrplan für den produktiven Einsatz in deutschen Unternehmen.