VLM Werkstattzeichnungen: 85 % schneller erfassen

TL;DR

Vision Language Models (VLMs) erkennen Maße, Toleranzen, Oberflächenangaben und Stücklisten auf Werkstattzeichnungen automatisch. Im Gegensatz zu klassischem OCR verstehen VLMs den technischen Kontext — sie unterscheiden Nennmaß, Toleranz und Bezugskante. Ein Maschinenbauer mit 50 neuen Zeichnungen pro Woche spart 85 % Erfassungszeit und €38.000 jährlich. Der Einstieg gelingt mit GPT-4o oder Qwen2-VL.

Warum OCR bei technischen Zeichnungen versagt

Klassische OCR-Systeme (Tesseract, ABBYY) sind für Fließtext optimiert. Werkstattzeichnungen stellen sie vor unlösbare Probleme:

Gedrehter Text: Maßzahlen stehen parallel zur Maßlinie — in beliebigen Winkeln
Symbole: Durchmesserzeichen (⌀), Toleranzsymbole (⊥, ∥, ⊙), Oberflächenzeichen (Ra, Rz)
Kontext: "12" kann ein Maß (12 mm), eine Positionsnummer oder eine Stückzahl sein
Zeichnungsqualität: Gescannte Papierzeichnungen, Faxkopien, verblasste Blaupausen
Normabhängigkeit: DIN-Zeichnungen vs. ANSI/ISO — unterschiedliche Konventionen

Ein Lohnfertiger aus dem Schwarzwald hat es getestet: Tesseract OCR erkannte 34 % der Maße korrekt, ABBYY 51 %. Ein VLM (GPT-4o) erreichte 89 % — bei gleichzeitigem Kontextverständnis.

Was Vision Language Models anders machen

VLMs kombinieren Bilderkennung mit Sprachverständnis. Sie "sehen" die Zeichnung und "verstehen" gleichzeitig die technische Bedeutung:

Erkennbare Informationen

# Was ein VLM aus einer Werkstattzeichnung extrahiert
abmessungen:
  - position: "Außendurchmesser"
    nennmass: 48.0
    toleranz: "h7 (-0.000/-0.025)"
    einheit: "mm"

  - position: "Gesamtlänge"
    nennmass: 125.5
    toleranz: "±0.1"
    einheit: "mm"

  - position: "Bohrung M8"
    nennmass: 6.8
    toleranz: "H7 (+0.015/+0.000)"
    tiefe: "durchgehend"

form_und_lagetoleranzen:
  - typ: "Rundlauf"
    wert: 0.02
    bezug: "A"
    flaeche: "Außendurchmesser ⌀48h7"

  - typ: "Rechtwinkligkeit"
    wert: 0.05
    bezug: "A"
    flaeche: "Stirnfläche"

oberflaechen:
  - flaeche: "Außendurchmesser ⌀48h7"
    ra: 0.8
  - flaeche: "Stirnfläche"
    ra: 3.2

material: "42CrMo4 (1.7225)"
waermebehandlung: "Vergütet 900-1100 N/mm²"
stueckzahl: 250
zeichnungsnummer: "WZ-2026-0847"

Wie die Extraktion funktioniert

Bild-Upload: Zeichnung als PDF oder Bild (min. 300 dpi) an das VLM senden
Prompt: Strukturierte Anweisung, welche Informationen extrahiert werden sollen
Analyse: Das VLM erkennt Maßketten, Symbole und Schriftfeld
Ausgabe: Strukturiertes JSON mit allen erkannten Werten
Validierung: Automatische Plausibilitätsprüfung (z. B. Toleranz passt zum Nennmaß?)

Genauigkeit nach Zeichnungstyp

Zeichnungstyp	GPT-4o	Qwen2-VL-72B	Claude 3.5
CAD-Export (PDF, sauber)	94 %	91 %	92 %
Scan (300 dpi, gut)	89 %	85 %	87 %
Scan (150 dpi, mäßig)	72 %	68 %	71 %
Handskizze	58 %	52 %	55 %
Form- und Lagetoleranzen	81 %	76 %	79 %

Empfehlung: Für Produktiveinsatz mindestens 300 dpi und CAD-Exporte bevorzugen. Bei Scans unter 200 dpi vorher mit KI-Upscaling verbessern.

Praxisbeispiel: Lohnfertiger in Baden-Württemberg

Ein CNC-Lohnfertiger (42 Mitarbeiter, 12 CNC-Maschinen) bearbeitet 250 Kundenzeichnungen pro Monat:

Ausgangslage:

50 neue Zeichnungen pro Woche
Arbeitsvorbereitung: 25 Min. pro Zeichnung für Maßerfassung
3 AV-Mitarbeiter, davon 60 % der Zeit für Zeichnungsanalyse
Fehlerrate bei manueller Erfassung: 4,2 %
Kosten durch Erfassungsfehler: €18.000/Jahr (Ausschuss + Nacharbeit)

Lösung:

VLM-Pipeline mit GPT-4o (API)
Zeichnung hochladen → Maße, Toleranzen, Material automatisch extrahiert
Ergebnis als JSON → Import in CAM-Software (hyperMILL)
AV-Mitarbeiter prüft und ergänzt (statt manuell zu erfassen)

Ergebnisse nach 5 Monaten:

Kennzahl	Vorher	Nachher
Erfassungszeit pro Zeichnung	25 Min.	4 Min. (inkl. Prüfung)
Fehlerrate Maßerfassung	4,2 %	0,8 %
AV-Aufwand/Woche (Zeichnung)	21 Std.	3,5 Std.
Ausschuss durch Erfassungsfehler	€18.000/Jahr	€3.400/Jahr
API-Kosten (GPT-4o)	—	€380/Monat
Jährliche Nettoeinsparung	—	€38.040

Implementierung: Pipeline aufbauen

Option 1: Cloud-API (schneller Start)

# VLM-Pipeline mit GPT-4o
import openai
import json
from pathlib import Path

client = openai.OpenAI()

def zeichnung_analysieren(bild_pfad: str) -> dict:
    with open(bild_pfad, "rb") as f:
        import base64
        bild_b64 = base64.b64encode(f.read()).decode()

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": """Analysiere diese technische Werkstattzeichnung.
                Extrahiere alle Maße, Toleranzen, Oberflächenangaben,
                Material und Stückzahl als JSON."""},
                {"type": "image_url", "image_url": {
                    "url": f"data:image/png;base64,{bild_b64}"
                }}
            ]
        }],
        response_format={"type": "json_object"},
        temperature=0.1
    )
    return json.loads(response.choices[0].message.content)

Kosten: ca. €0,08 pro Zeichnung (GPT-4o, ~1.500 Token Output).

Option 2: Lokales VLM (DSGVO-konform)

Für vertrauliche Kundenzeichnungen:

# Lokales Setup mit Qwen2-VL
hardware:
  gpu: "NVIDIA RTX 4090 (24 GB VRAM)"
  ram: "64 GB"
  kosten: "€3.500 (Workstation)"

software:
  modell: "Qwen2-VL-72B-Instruct (GPTQ-Int4)"
  framework: "vLLM oder Transformers"
  inferenzzeit: "8-12 Sekunden pro Zeichnung"

vorteil: "Keine Daten verlassen das Unternehmen"
nachteil: "5-8% geringere Genauigkeit als GPT-4o"

CAM/ERP-Integration

Die extrahierten Daten werden als JSON oder XML an nachgelagerte Systeme übergeben:

CAM (hyperMILL, Mastercam): Maße als Feature-Parameter importieren
ERP (SAP, proALPHA): Material, Stückzahl, Zeichnungsnummer als Auftragsdaten
QS-System: Toleranzen als Prüfmerkmale für den Prüfplan übernehmen

Grenzen und Workarounds

Mehrseitige Zeichnungen: VLMs verarbeiten eine Seite pro Anfrage. Bei mehrseitigen Zeichnungen muss jede Seite einzeln analysiert und die Ergebnisse zusammengeführt werden.

3D-Modelle: VLMs können keine STEP- oder IGES-Dateien verarbeiten. Für 3D-Daten brauchen Sie spezialisierte CAD-Parser.

Komplexe Schweißnahtzeichen: Schweißnahtsymbole nach DIN EN ISO 2553 werden nur zu 65 % korrekt erkannt. Hier bleibt manuelle Prüfung nötig.

Historische Zeichnungen: Zeichnungen vor DIN 6 (1968) verwenden andere Symbole und Konventionen. Das Modell muss dafür spezifisch trainiert werden.

Grundlagen zur KI-Einführung beschreibt der Komplettleitfaden KI für Unternehmen. Die ROI-Berechnung mit Excel-Vorlage hilft bei der Investitionsentscheidung. Für weitere Fertigungs-KI-Anwendungen lesen Sie KI-Stanzwerkzeug Verschleißerkennung. Die Budgetplanung erläutert der Artikel KI-Kosten für Unternehmen.

FAQ

Kann das VLM auch alte Papierzeichnungen lesen?

Ja, bei ausreichender Scanqualität (300 dpi, guter Kontrast). Bei verblassten oder beschädigten Zeichnungen sinkt die Genauigkeit auf 60–70 %. Vorverarbeitung mit Kontrastanpassung hilft.

Wie unterscheidet das VLM zwischen Nennmaß und Positionsnummer?

Durch Kontextanalyse: Maße stehen an Maßlinien mit Maßpfeilen, Positionsnummern in Kreisen oder an Hinweislinien. VLMs erkennen diesen visuellen Kontext zuverlässig.

Funktioniert die Erkennung auch bei US-Zeichnungen (Inch)?

Ja. Das VLM erkennt das Einheitensystem anhand des Schriftfelds oder der Maßwerte und gibt die Einheit im Output mit aus. Umrechnung in metrisch erfolgt automatisch.

Wie hoch sind die laufenden Kosten?

Cloud (GPT-4o): ca. €0,08 pro Zeichnung → €200/Monat bei 50 Zeichnungen/Woche. Lokal (Qwen2-VL): €50/Monat Stromkosten bei 50 Zeichnungen/Woche.

Kann ich das Modell auf meine eigenen Zeichnungskonventionen feintunen?

Bei Cloud-APIs (GPT-4o) nicht direkt — aber durch Few-Shot-Prompting mit 3–5 Beispielzeichnungen steigt die Genauigkeit um 5–8 %. Lokale Modelle können mit LoRA auf eigene Daten feingetunt werden.