- Published on
DSPy Framework: LLM-Pipelines ohne Prompts bauen
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
DSPy von Stanford ersetzt manuelles Prompt-Engineering durch deklarative Module. Statt Prompts zu optimieren, definieren Sie Ein- und Ausgabe — DSPy optimiert automatisch. Mittelständler sparen 60–80 % der Entwicklungszeit für LLM-Anwendungen. Der Einstieg gelingt mit Python-Grundkenntnissen in unter zwei Tagen. Dieser Artikel zeigt die Architektur, ein Praxisbeispiel und den konkreten ROI.
Was ist DSPy und warum braucht der Mittelstand es?
Prompt-Engineering ist fragil. Ein geändertes Wort kann die Ausgabe eines Large Language Models (LLM) komplett verändern. DSPy — Declarative Self-improving Python — löst dieses Problem grundlegend: Anstatt Prompts manuell zu schreiben, definieren Entwickler Signaturen (Eingabe → Ausgabe) und lassen den Compiler die optimale Prompt-Strategie finden.
Für den deutschen Mittelstand bedeutet das konkret:
- Keine Prompt-Spezialisten nötig — vorhandene Python-Entwickler reichen
- Reproduzierbare Ergebnisse — identische Konfiguration liefert identische Qualität
- Modellunabhängigkeit — Wechsel von GPT-4 zu Llama 3 ohne Code-Änderung
- 60–80 % weniger Entwicklungszeit gegenüber manuellem Prompt-Tuning
Ein Maschinenbau-Zulieferer aus Baden-Württemberg hat mit DSPy seine Angebotsklassifikation von 3 Wochen Prompt-Arbeit auf 2 Tage reduziert — bei 12 % höherer Genauigkeit.
DSPy-Architektur: Die drei Kernkonzepte
1. Signaturen
Eine Signatur definiert, was das LLM tun soll — nicht wie:
class KundenanfrageKlassifikation(dspy.Signature):
"""Klassifiziere eine Kundenanfrage nach Kategorie und Dringlichkeit."""
anfrage = dspy.InputField(desc="Text der Kundenanfrage")
kategorie = dspy.OutputField(desc="Kategorie: Reklamation|Bestellung|Anfrage")
dringlichkeit = dspy.OutputField(desc="Dringlichkeit: hoch|mittel|niedrig")
2. Module
Module verknüpfen Signaturen mit Strategien wie Chain-of-Thought oder ReAct:
class AnfrageRouter(dspy.Module):
def __init__(self):
self.klassifizieren = dspy.ChainOfThought(KundenanfrageKlassifikation)
def forward(self, anfrage):
return self.klassifizieren(anfrage=anfrage)
3. Teleprompter (Compiler)
Der Compiler optimiert Prompts automatisch anhand von Trainingsbeispielen:
from dspy.teleprompt import BootstrapFewShot
teleprompter = BootstrapFewShot(metric=genauigkeit_metrik, max_bootstrapped_demos=4)
optimiertes_programm = teleprompter.compile(AnfrageRouter(), trainset=trainingsbeispiele)
Praxisbeispiel: Angebots-Pipeline für Großhandel
Ein mittelständischer Großhändler für Industriebedarf verarbeitet täglich 200+ Anfragen per E-Mail. Die DSPy-Pipeline automatisiert drei Schritte:
Schritt 1 — Extraktion: Artikelnummern, Mengen und Liefertermine aus Freitext extrahieren.
Schritt 2 — Validierung: Abgleich mit dem ERP-System (SAP Business One) über API.
Schritt 3 — Angebotserstellung: Automatische Preiskalkulation mit kundenspezifischen Rabatten.
ROI-Berechnung
| Kennzahl | Vorher (manuell) | Nachher (DSPy) |
|---|---|---|
| Bearbeitungszeit pro Anfrage | 12 Min. | 1,5 Min. |
| Fehlerquote | 8 % | 1,2 % |
| Bearbeitete Anfragen/Tag | 200 | 200 |
| Personalkosten/Monat | €14.400 | €3.200 |
| Monatliche Einsparung | — | €11.200 |
Die initiale Entwicklung kostete €18.000 — der Break-Even lag bei 1,6 Monaten.
DSPy vs. LangChain vs. manuelles Prompting
| Kriterium | DSPy | LangChain | Manuell |
|---|---|---|---|
| Lernkurve | Mittel | Hoch | Niedrig |
| Wartungsaufwand | Gering | Hoch | Sehr hoch |
| Modellwechsel | 1 Zeile | Moderat | Komplett neu |
| Reproduzierbarkeit | Hoch | Mittel | Niedrig |
| Optimierung | Automatisch | Manuell | Manuell |
DSPy eignet sich besonders für Mittelständler, die produktionsreife LLM-Pipelines brauchen — nicht für Prototypen, die nach der Demo verschwinden.
Schritt-für-Schritt: DSPy-Pipeline aufsetzen
Installation und Konfiguration
# requirements.txt
dspy-ai==2.5.3
openai==1.52.0
python-dotenv==1.0.1
# .env
OPENAI_API_KEY=sk-...
DSP_MODEL=gpt-4o-mini
import dspy
# LLM konfigurieren
lm = dspy.LM("openai/gpt-4o-mini", temperature=0.1)
dspy.configure(lm=lm)
# Für lokale Modelle (Ollama):
# lm = dspy.LM("ollama/llama3", api_base="http://localhost:11434")
Trainingsbeispiele vorbereiten
DSPy benötigt 20–50 gelabelte Beispiele für die Optimierung. Für den Mittelstand reicht oft ein Export aus dem bestehenden CRM oder ERP:
trainset = [
dspy.Example(
anfrage="Brauche 500 Stk M8x30 Inbus DIN 912, Lieferung bis KW 14",
kategorie="Bestellung",
dringlichkeit="mittel"
).with_inputs("anfrage"),
# ... 30-50 weitere Beispiele
]
Evaluation und Deployment
from dspy.evaluate import Evaluate
evaluator = Evaluate(devset=testset, metric=genauigkeit_metrik, num_threads=4)
ergebnis = evaluator(optimiertes_programm)
print(f"Genauigkeit: {ergebnis:.1%}") # Typisch: 91-96%
# Programm speichern
optimiertes_programm.save("angebots_pipeline_v1.json")
Fünf Fehler, die Mittelständler vermeiden sollten
- Zu wenige Trainingsbeispiele — unter 20 Beispielen sinkt die Optimierungsqualität drastisch.
- Falsche Metrik — messen Sie nicht nur Genauigkeit, sondern auch Geschäftsrelevanz (z. B. korrekte Preiskalkulation).
- Monolithische Pipelines — teilen Sie komplexe Aufgaben in 2–3 Module auf.
- Kein Fallback — bauen Sie für Grenzfälle einen menschlichen Review-Schritt ein.
- Modell-Overkill — GPT-4o-mini reicht für 80 % der Mittelstands-Aufgaben; GPT-4o nur bei komplexer Logik.
Kosten und Wirtschaftlichkeit
Die laufenden Kosten einer DSPy-Pipeline sind überschaubar:
- API-Kosten (GPT-4o-mini): ca. €0,003 pro Anfrage → €120/Monat bei 200 Anfragen/Tag
- Hosting (Cloud Run): €25–50/Monat
- Gesamtkosten: €150–170/Monat vs. €14.400 Personalkosten
Weitere Details zur Budgetplanung finden Sie im Artikel KI-Kosten für Unternehmen. Die ROI-Berechnung mit Excel-Vorlage hilft bei der internen Argumentation.
Nächste Schritte für Ihren Einstieg
- Woche 1: Python-Umgebung einrichten, DSPy installieren, erstes Signature testen
- Woche 2: 30 gelabelte Beispiele aus Ihrem ERP exportieren
- Woche 3: Pipeline mit BootstrapFewShot optimieren und evaluieren
- Woche 4: Deployment auf Cloud Run oder internem Server
Für den übergreifenden Fahrplan empfehlen wir den Komplettleitfaden KI für Unternehmen. Praktische Tipps zur Implementierung finden Sie unter KI implementieren.
FAQ
Brauche ich ML-Erfahrung für DSPy?
Nein. Python-Grundkenntnisse reichen. DSPy abstrahiert das Prompt-Engineering vollständig — Sie definieren nur Eingabe und Ausgabe.
Funktioniert DSPy mit lokalen Modellen?
Ja. DSPy unterstützt Ollama, vLLM und jede OpenAI-kompatible API. Für DSGVO-konforme Lösungen können Sie Llama 3 oder Mistral lokal betreiben.
Wie viele Trainingsbeispiele brauche ich?
Für die meisten Mittelstands-Aufgaben reichen 30–50 gelabelte Beispiele. Bei komplexen Klassifikationen (10+ Kategorien) empfehlen wir 100+.
Was kostet der Einstieg?
Die Software ist Open Source. Rechnen Sie mit €15.000–25.000 für die initiale Entwicklung durch einen Dienstleister oder 3–4 Wochen interne Entwicklungszeit.
Kann ich DSPy in bestehende Systeme integrieren?
Ja. DSPy-Pipelines lassen sich als REST-API deployen und per Webhook oder Middleware an SAP, Salesforce oder Microsoft Dynamics anbinden.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
Cobot-Schweißen KMU: Programmierung in 15 Minuten
Cobot-Schweißzellen für KMU lassen sich in 15 Minuten programmieren statt in 3 Stunden. Praxisleitfaden mit Kostenvergleich, Parametern und ROI-Rechnung.
Air-Gapped KI: LLM ohne Internet im Werk
LLMs komplett offline betreiben: Air-Gapped-Installation von Llama 3.3 ohne Internet. Für KRITIS und Produktion. Setup in 4 Stunden, 0 € API-Kosten.
On-Premise KI: 5 Self-Hosted LLM-Lösungen verglichen
5 Self-Hosted LLM-Lösungen verglichen: Ollama, vLLM, LocalAI, llama.cpp, TGI. Ab 2.400 €, bis 85 Tokens/Sek. Entscheidungshilfe für den Mittelstand.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)