- Published on
VLM für Werkstattzeichnungen: Maße auslesen
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
Vision Language Models (VLMs) erkennen Maße, Toleranzen, Oberflächenangaben und Stücklisten auf Werkstattzeichnungen automatisch. Im Gegensatz zu klassischem OCR verstehen VLMs den technischen Kontext — sie unterscheiden Nennmaß, Toleranz und Bezugskante. Ein Maschinenbauer mit 50 neuen Zeichnungen pro Woche spart 85 % Erfassungszeit und €38.000 jährlich. Der Einstieg gelingt mit GPT-4o oder Qwen2-VL.
Warum OCR bei technischen Zeichnungen versagt
Klassische OCR-Systeme (Tesseract, ABBYY) sind für Fließtext optimiert. Werkstattzeichnungen stellen sie vor unlösbare Probleme:
- Gedrehter Text: Maßzahlen stehen parallel zur Maßlinie — in beliebigen Winkeln
- Symbole: Durchmesserzeichen (⌀), Toleranzsymbole (⊥, ∥, ⊙), Oberflächenzeichen (Ra, Rz)
- Kontext: "12" kann ein Maß (12 mm), eine Positionsnummer oder eine Stückzahl sein
- Zeichnungsqualität: Gescannte Papierzeichnungen, Faxkopien, verblasste Blaupausen
- Normabhängigkeit: DIN-Zeichnungen vs. ANSI/ISO — unterschiedliche Konventionen
Ein Lohnfertiger aus dem Schwarzwald hat es getestet: Tesseract OCR erkannte 34 % der Maße korrekt, ABBYY 51 %. Ein VLM (GPT-4o) erreichte 89 % — bei gleichzeitigem Kontextverständnis.
Was Vision Language Models anders machen
VLMs kombinieren Bilderkennung mit Sprachverständnis. Sie "sehen" die Zeichnung und "verstehen" gleichzeitig die technische Bedeutung:
Erkennbare Informationen
# Was ein VLM aus einer Werkstattzeichnung extrahiert
abmessungen:
- position: "Außendurchmesser"
nennmass: 48.0
toleranz: "h7 (-0.000/-0.025)"
einheit: "mm"
- position: "Gesamtlänge"
nennmass: 125.5
toleranz: "±0.1"
einheit: "mm"
- position: "Bohrung M8"
nennmass: 6.8
toleranz: "H7 (+0.015/+0.000)"
tiefe: "durchgehend"
form_und_lagetoleranzen:
- typ: "Rundlauf"
wert: 0.02
bezug: "A"
flaeche: "Außendurchmesser ⌀48h7"
- typ: "Rechtwinkligkeit"
wert: 0.05
bezug: "A"
flaeche: "Stirnfläche"
oberflaechen:
- flaeche: "Außendurchmesser ⌀48h7"
ra: 0.8
- flaeche: "Stirnfläche"
ra: 3.2
material: "42CrMo4 (1.7225)"
waermebehandlung: "Vergütet 900-1100 N/mm²"
stueckzahl: 250
zeichnungsnummer: "WZ-2026-0847"
Wie die Extraktion funktioniert
- Bild-Upload: Zeichnung als PDF oder Bild (min. 300 dpi) an das VLM senden
- Prompt: Strukturierte Anweisung, welche Informationen extrahiert werden sollen
- Analyse: Das VLM erkennt Maßketten, Symbole und Schriftfeld
- Ausgabe: Strukturiertes JSON mit allen erkannten Werten
- Validierung: Automatische Plausibilitätsprüfung (z. B. Toleranz passt zum Nennmaß?)
Genauigkeit nach Zeichnungstyp
| Zeichnungstyp | GPT-4o | Qwen2-VL-72B | Claude 3.5 |
|---|---|---|---|
| CAD-Export (PDF, sauber) | 94 % | 91 % | 92 % |
| Scan (300 dpi, gut) | 89 % | 85 % | 87 % |
| Scan (150 dpi, mäßig) | 72 % | 68 % | 71 % |
| Handskizze | 58 % | 52 % | 55 % |
| Form- und Lagetoleranzen | 81 % | 76 % | 79 % |
Empfehlung: Für Produktiveinsatz mindestens 300 dpi und CAD-Exporte bevorzugen. Bei Scans unter 200 dpi vorher mit KI-Upscaling verbessern.
Praxisbeispiel: Lohnfertiger in Baden-Württemberg
Ein CNC-Lohnfertiger (42 Mitarbeiter, 12 CNC-Maschinen) bearbeitet 250 Kundenzeichnungen pro Monat:
Ausgangslage:
- 50 neue Zeichnungen pro Woche
- Arbeitsvorbereitung: 25 Min. pro Zeichnung für Maßerfassung
- 3 AV-Mitarbeiter, davon 60 % der Zeit für Zeichnungsanalyse
- Fehlerrate bei manueller Erfassung: 4,2 %
- Kosten durch Erfassungsfehler: €18.000/Jahr (Ausschuss + Nacharbeit)
Lösung:
- VLM-Pipeline mit GPT-4o (API)
- Zeichnung hochladen → Maße, Toleranzen, Material automatisch extrahiert
- Ergebnis als JSON → Import in CAM-Software (hyperMILL)
- AV-Mitarbeiter prüft und ergänzt (statt manuell zu erfassen)
Ergebnisse nach 5 Monaten:
| Kennzahl | Vorher | Nachher |
|---|---|---|
| Erfassungszeit pro Zeichnung | 25 Min. | 4 Min. (inkl. Prüfung) |
| Fehlerrate Maßerfassung | 4,2 % | 0,8 % |
| AV-Aufwand/Woche (Zeichnung) | 21 Std. | 3,5 Std. |
| Ausschuss durch Erfassungsfehler | €18.000/Jahr | €3.400/Jahr |
| API-Kosten (GPT-4o) | — | €380/Monat |
| Jährliche Nettoeinsparung | — | €38.040 |
Implementierung: Pipeline aufbauen
Option 1: Cloud-API (schneller Start)
# VLM-Pipeline mit GPT-4o
import openai
import json
from pathlib import Path
client = openai.OpenAI()
def zeichnung_analysieren(bild_pfad: str) -> dict:
with open(bild_pfad, "rb") as f:
import base64
bild_b64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": """Analysiere diese technische Werkstattzeichnung.
Extrahiere alle Maße, Toleranzen, Oberflächenangaben,
Material und Stückzahl als JSON."""},
{"type": "image_url", "image_url": {
"url": f"data:image/png;base64,{bild_b64}"
}}
]
}],
response_format={"type": "json_object"},
temperature=0.1
)
return json.loads(response.choices[0].message.content)
Kosten: ca. €0,08 pro Zeichnung (GPT-4o, ~1.500 Token Output).
Option 2: Lokales VLM (DSGVO-konform)
Für vertrauliche Kundenzeichnungen:
# Lokales Setup mit Qwen2-VL
hardware:
gpu: "NVIDIA RTX 4090 (24 GB VRAM)"
ram: "64 GB"
kosten: "€3.500 (Workstation)"
software:
modell: "Qwen2-VL-72B-Instruct (GPTQ-Int4)"
framework: "vLLM oder Transformers"
inferenzzeit: "8-12 Sekunden pro Zeichnung"
vorteil: "Keine Daten verlassen das Unternehmen"
nachteil: "5-8% geringere Genauigkeit als GPT-4o"
CAM/ERP-Integration
Die extrahierten Daten werden als JSON oder XML an nachgelagerte Systeme übergeben:
- CAM (hyperMILL, Mastercam): Maße als Feature-Parameter importieren
- ERP (SAP, proALPHA): Material, Stückzahl, Zeichnungsnummer als Auftragsdaten
- QS-System: Toleranzen als Prüfmerkmale für den Prüfplan übernehmen
Grenzen und Workarounds
Mehrseitige Zeichnungen: VLMs verarbeiten eine Seite pro Anfrage. Bei mehrseitigen Zeichnungen muss jede Seite einzeln analysiert und die Ergebnisse zusammengeführt werden.
3D-Modelle: VLMs können keine STEP- oder IGES-Dateien verarbeiten. Für 3D-Daten brauchen Sie spezialisierte CAD-Parser.
Komplexe Schweißnahtzeichen: Schweißnahtsymbole nach DIN EN ISO 2553 werden nur zu 65 % korrekt erkannt. Hier bleibt manuelle Prüfung nötig.
Historische Zeichnungen: Zeichnungen vor DIN 6 (1968) verwenden andere Symbole und Konventionen. Das Modell muss dafür spezifisch trainiert werden.
Grundlagen zur KI-Einführung beschreibt der Komplettleitfaden KI für Unternehmen. Die ROI-Berechnung mit Excel-Vorlage hilft bei der Investitionsentscheidung. Für weitere Fertigungs-KI-Anwendungen lesen Sie KI-Stanzwerkzeug Verschleißerkennung. Die Budgetplanung erläutert der Artikel KI-Kosten für Unternehmen.
FAQ
Kann das VLM auch alte Papierzeichnungen lesen?
Ja, bei ausreichender Scanqualität (300 dpi, guter Kontrast). Bei verblassten oder beschädigten Zeichnungen sinkt die Genauigkeit auf 60–70 %. Vorverarbeitung mit Kontrastanpassung hilft.
Wie unterscheidet das VLM zwischen Nennmaß und Positionsnummer?
Durch Kontextanalyse: Maße stehen an Maßlinien mit Maßpfeilen, Positionsnummern in Kreisen oder an Hinweislinien. VLMs erkennen diesen visuellen Kontext zuverlässig.
Funktioniert die Erkennung auch bei US-Zeichnungen (Inch)?
Ja. Das VLM erkennt das Einheitensystem anhand des Schriftfelds oder der Maßwerte und gibt die Einheit im Output mit aus. Umrechnung in metrisch erfolgt automatisch.
Wie hoch sind die laufenden Kosten?
Cloud (GPT-4o): ca. €0,08 pro Zeichnung → €200/Monat bei 50 Zeichnungen/Woche. Lokal (Qwen2-VL): €50/Monat Stromkosten bei 50 Zeichnungen/Woche.
Kann ich das Modell auf meine eigenen Zeichnungskonventionen feintunen?
Bei Cloud-APIs (GPT-4o) nicht direkt — aber durch Few-Shot-Prompting mit 3–5 Beispielzeichnungen steigt die Genauigkeit um 5–8 %. Lokale Modelle können mit LoRA auf eigene Daten feingetunt werden.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
KI für Fertigungsdokumentation: Technische Zeichnungen verstehen & nutzen 2026
KI versteht technische Zeichnungen im Maschinenbau: Stücklisten extrahieren, Wissen sichern und Stillstandzeiten um 20% senken. Ihr Weg zur automatisierten Fertigungsdokumentation 2026.
KI-OEE-Optimierung für Maschinenbau: Gesamtanlageneffektivität um 12% steigern 2026
Steigern Sie die OEE im Maschinenbau um bis zu 12% mit KI. Senken Sie Stillstandzeiten und Ausschuss um durchschnittlich 150.000€ pro Jahr mit unserer praxisorientierten Anleitung.
Digitaler Produktpass mit KI: Daten automatisch
KI automatisiert die Datenerfassung für den Digitalen Produktpass im Maschinenbau. 85% weniger Aufwand, €42.000 Einsparung pro Jahr.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)