- Published on
Whisper API vs. lokaler Server: Kosten pro Stunde
- Authors

- Name
- Phillip Pham
- @ddppham
TL;DR
OpenAI Whisper API kostet €0,006 pro Sekunde (€0,36/Minute). Ein eigener Whisper-Server auf einer NVIDIA T4 GPU transkribiert für €0,02/Minute – 94 % günstiger. Der Break-even liegt bei 80 Audiostunden pro Monat. Für Callcenter, Anwaltskanzleien und Arztpraxen mit viel Audiomaterial rechnet sich Self-Hosting ab dem ersten Monat.
Spracherkennung im Mittelstand: Drei Szenarien
Callcenter (50 Mitarbeiter): 4.000 Anrufe/Monat, Durchschnitt 8 Minuten = 533 Stunden Audio. Transkription für Qualitätssicherung, Stimmungsanalyse, Zusammenfassung.
Anwaltskanzlei (15 Anwälte): 200 Diktate/Monat, Durchschnitt 12 Minuten = 40 Stunden Audio. Transkription für Mandantenakten, Schriftsätze, Protokolle.
Arztpraxis (5 Ärzte): 600 Diktate/Monat, Durchschnitt 3 Minuten = 30 Stunden Audio. Befundberichte, Arztbriefe, OP-Berichte.
Der Kostenunterschied zwischen API und Self-Hosting ist bei diesen Volumina erheblich.
Kostenvergleich: API vs. Self-Hosted
| Metrik | OpenAI Whisper API | Self-Hosted (T4 GPU) | Self-Hosted (CPU only) |
|---|---|---|---|
| Kosten pro Minute | €0,36 | €0,02 | €0,005 |
| 30 Stunden/Monat | €648 | €36 + €180 Server | €9 + €50 Server |
| 80 Stunden/Monat | €1.728 | €96 + €180 Server | €24 + €50 Server |
| 500 Stunden/Monat | €10.800 | €600 + €180 Server | nicht praktikabel |
| Geschwindigkeit | 1x Echtzeit | 8–12x Echtzeit (GPU) | 0,5–1x Echtzeit |
| DSGVO | Daten bei OpenAI | Daten im Haus | Daten im Haus |
| Genauigkeit Deutsch | 94 % WER | 94 % WER (gleiches Modell) | 94 % WER |
Der Break-even zwischen API und GPU-Server liegt bei 80 Stunden/Monat. Darunter ist die API günstiger (keine Fixkosten). Darüber spart Self-Hosting 85–94 % der Kosten.
Self-Hosted Setup: Whisper auf eigenem Server
Whisper large-v3 ist das beste Open-Source-Modell für deutsche Spracherkennung. Es läuft auf jeder NVIDIA GPU mit mindestens 6 GB VRAM.
# Whisper Self-Hosted: Hardware-Anforderungen
hardware_optionen:
option_1_gpu:
name: "NVIDIA T4 (Cloud oder On-Premise)"
vram_gb: 16
kosten_cloud_eur_monat: 180
kosten_on_premise_eur: 2500
geschwindigkeit: "10x Echtzeit mit large-v3"
max_parallel_streams: 4
option_2_gpu_high:
name: "NVIDIA A10 (Cloud)"
vram_gb: 24
kosten_cloud_eur_monat: 350
geschwindigkeit: "18x Echtzeit mit large-v3"
max_parallel_streams: 8
option_3_cpu:
name: "CPU-only (8 Kerne, 32 GB RAM)"
kosten_cloud_eur_monat: 50
kosten_on_premise_eur: 800
geschwindigkeit: "0.5x Echtzeit mit medium"
max_parallel_streams: 1
hinweis: "Nur für <30 Stunden/Monat praktikabel"
software:
modell: "openai/whisper-large-v3"
runtime: "faster-whisper (CTranslate2)"
api: "FastAPI mit Batch-Queue"
sprachen: ["de", "en", "fr", "es", "it"]
Die empfohlene Runtime ist faster-whisper statt des Original-Whisper. faster-whisper nutzt CTranslate2 und ist 4x schneller bei gleicher Genauigkeit. Auf einer T4 GPU transkribiert faster-whisper mit large-v3 eine Stunde Audio in 6 Minuten.
DSGVO: Warum Self-Hosting für Audiodaten Pflicht ist
Audiodaten sind personenbezogene Daten. Stimmen identifizieren Personen, Gesprächsinhalte können sensible Informationen enthalten. Die Übermittlung an OpenAI erfordert eine Auftragsverarbeitungsvereinbarung (AVV) und eine Datenschutz-Folgenabschätzung.
Für Branchen mit besonderem Schutzbedarf – Arztpraxen, Anwaltskanzleien, Finanzdienstleister – ist Self-Hosting die sicherere Variante. Die Daten verlassen nie das Unternehmensnetzwerk. Details zur DSGVO-konformen KI-Nutzung.
Praxisbeispiel: Callcenter spart €118.000/Jahr
Ein technischer Kundendienst mit 50 Mitarbeitern transkribiert 533 Stunden Telefonate pro Monat zur Qualitätssicherung. Vorher: Manuelle Stichproben (10 % der Anrufe), kein systematisches Monitoring.
Option 1 – OpenAI API: 533 h × €21,60/h = €11.505/Monat = €138.060/Jahr
Option 2 – Self-Hosted (2x A10): €700/Monat Cloud + €200/Monat Wartung = €10.800/Jahr
Ersparnis: €127.260/Jahr. Plus: Alle Anrufe werden transkribiert statt nur 10 %. Die Qualitätssicherung erkennt Probleme 5x schneller. Die ROI-Berechnung berücksichtigt auch den Qualitätsgewinn.
Genauigkeit: Deutsch im Test
Whisper large-v3 erreicht auf dem Common Voice 13.0 Benchmark für Deutsch eine Word Error Rate (WER) von 5,8 %. Das entspricht 94,2 % korrekt erkannten Wörtern. Zum Vergleich: Google Speech-to-Text liegt bei 5,2 % WER, Amazon Transcribe bei 6,4 %.
Für Fachsprache (Medizin, Recht, Technik) steigt die WER auf 8–12 %. Fine-Tuning auf domänenspezifische Daten senkt sie auf 4–6 %. Dafür benötigen Sie 50–200 Stunden gelabeltes Audio aus Ihrer Domäne.
Integration in bestehende Workflows
Der Self-Hosted Whisper-Server stellt eine REST-API bereit. Typische Integrationen:
- CRM: Anruf-Aufnahme wird nach Gesprächsende automatisch transkribiert und im Kontakt gespeichert
- ERP: Diktierte Auftragsnotizen werden transkribiert und als Freitext im Auftrag gespeichert
- Dokumentenmanagement: Diktierte Befunde/Protokolle werden als Text in der Akte abgelegt
Die Integration erfordert pro System 4–8 Stunden Entwicklungsaufwand. Der KI-Leitfaden für Unternehmen beschreibt die typischen Integrationsmuster.
Häufige Fragen
Wie gut erkennt Whisper Dialekte?
Bayerisch, Schwäbisch und Sächsisch werden mit 8–15 % höherer WER erkannt als Hochdeutsch. Fine-Tuning auf regionalen Daten verbessert die Erkennung erheblich. Für Schweizerdeutsch gibt es spezialisierte Modelle.
Kann Whisper Sprecher unterscheiden?
Whisper allein erkennt keine Sprecher. Für Speaker Diarization (wer spricht wann) kombinieren Sie Whisper mit pyannote-audio. Die Kombination liefert timestamped Transkripte mit Sprecherzuordnung.
Wie schnell ist die Transkription?
Auf einer T4 GPU: 10x Echtzeit (1 Stunde Audio in 6 Minuten). Auf einer A10: 18x Echtzeit. Auf CPU: 0,5x Echtzeit (1 Stunde Audio in 2 Stunden). Für Echtzeit-Transkription während eines Gesprächs reicht eine T4.
Brauche ich Fine-Tuning für meine Branche?
Für allgemeine Geschäftssprache nein. Für Fachsprache mit vielen Fremdwörtern, Abkürzungen oder technischen Begriffen ja. Fine-Tuning auf 100 Stunden domänenspezifischem Audio senkt die WER um 30–50 %. Die Kostenplanung sollte €5.000–€10.000 für Fine-Tuning einplanen.
Kann ich auch Meetings transkribieren?
Ja. Whisper transkribiert Mehrpersonen-Meetings mit 85–90 % Genauigkeit. In Kombination mit Speaker Diarization erhalten Sie ein formatiertes Protokoll mit Sprecherwechseln. Die Qualität sinkt bei schlechten Mikrofonen oder starkem Hintergrundrauschen.
📖 Verwandte Artikel
Weitere interessante Beiträge zu ähnlichen Themen
Whisper lokal: Meetings transkribieren auf Deutsch
OpenAI Whisper lokal installieren und deutsche Meetings transkribieren. DSGVO-konform, ohne Cloud, mit 95 % Genauigkeit ab Tag 1.
KI-as-a-Service: Kosten für 5 Anbieter verglichen
KI-as-a-Service Kosten im Vergleich: 5 Anbieter von €490 bis €4.200/Monat. Praxistest mit echten Zahlen und Entscheidungsmatrix für den Mittelstand.
ChatGPT-Alternative lokal: 5 Tools ohne Abo
5 kostenlose ChatGPT-Alternativen lokal ohne Abo: Ollama, LM Studio, GPT4All, Jan und LocalAI im Benchmark-Vergleich für den Mittelstand.
Bereit für KI im Mittelstand?
Nutzen Sie unsere 10 kostenlosen KI-Tools und Praxis-Guides – oder sprechen Sie direkt mit unseren Experten.
Pexon Consulting – KI-Beratung für den Mittelstand | Scaly Academy – Geförderte KI-Weiterbildung (KI-Spezialist, KI-Experte, Workflow-Automatisierung)