Whisper API vs lokal: Kosten pro Audiostunde

TL;DR

OpenAI Whisper API kostet €0,006 pro Sekunde (€0,36/Minute). Ein eigener Whisper-Server auf einer NVIDIA T4 GPU transkribiert für €0,02/Minute – 94 % günstiger. Der Break-even liegt bei 80 Audiostunden pro Monat. Für Callcenter, Anwaltskanzleien und Arztpraxen mit viel Audiomaterial rechnet sich Self-Hosting ab dem ersten Monat.

Spracherkennung im Mittelstand: Drei Szenarien

Callcenter (50 Mitarbeiter): 4.000 Anrufe/Monat, Durchschnitt 8 Minuten = 533 Stunden Audio. Transkription für Qualitätssicherung, Stimmungsanalyse, Zusammenfassung.

Anwaltskanzlei (15 Anwälte): 200 Diktate/Monat, Durchschnitt 12 Minuten = 40 Stunden Audio. Transkription für Mandantenakten, Schriftsätze, Protokolle.

Arztpraxis (5 Ärzte): 600 Diktate/Monat, Durchschnitt 3 Minuten = 30 Stunden Audio. Befundberichte, Arztbriefe, OP-Berichte.

Der Kostenunterschied zwischen API und Self-Hosting ist bei diesen Volumina erheblich.

Kostenvergleich: API vs. Self-Hosted

Metrik	OpenAI Whisper API	Self-Hosted (T4 GPU)	Self-Hosted (CPU only)
Kosten pro Minute	€0,36	€0,02	€0,005
30 Stunden/Monat	€648	€36 + €180 Server	€9 + €50 Server
80 Stunden/Monat	€1.728	€96 + €180 Server	€24 + €50 Server
500 Stunden/Monat	€10.800	€600 + €180 Server	nicht praktikabel
Geschwindigkeit	1x Echtzeit	8–12x Echtzeit (GPU)	0,5–1x Echtzeit
DSGVO	Daten bei OpenAI	Daten im Haus	Daten im Haus
Genauigkeit Deutsch	94 % WER	94 % WER (gleiches Modell)	94 % WER

Der Break-even zwischen API und GPU-Server liegt bei 80 Stunden/Monat. Darunter ist die API günstiger (keine Fixkosten). Darüber spart Self-Hosting 85–94 % der Kosten.

Self-Hosted Setup: Whisper auf eigenem Server

Whisper large-v3 ist das beste Open-Source-Modell für deutsche Spracherkennung. Es läuft auf jeder NVIDIA GPU mit mindestens 6 GB VRAM.

# Whisper Self-Hosted: Hardware-Anforderungen
hardware_optionen:
  option_1_gpu:
    name: "NVIDIA T4 (Cloud oder On-Premise)"
    vram_gb: 16
    kosten_cloud_eur_monat: 180
    kosten_on_premise_eur: 2500
    geschwindigkeit: "10x Echtzeit mit large-v3"
    max_parallel_streams: 4
  option_2_gpu_high:
    name: "NVIDIA A10 (Cloud)"
    vram_gb: 24
    kosten_cloud_eur_monat: 350
    geschwindigkeit: "18x Echtzeit mit large-v3"
    max_parallel_streams: 8
  option_3_cpu:
    name: "CPU-only (8 Kerne, 32 GB RAM)"
    kosten_cloud_eur_monat: 50
    kosten_on_premise_eur: 800
    geschwindigkeit: "0.5x Echtzeit mit medium"
    max_parallel_streams: 1
    hinweis: "Nur für &lt;30 Stunden/Monat praktikabel"
software:
  modell: "openai/whisper-large-v3"
  runtime: "faster-whisper (CTranslate2)"
  api: "FastAPI mit Batch-Queue"
  sprachen: ["de", "en", "fr", "es", "it"]

Die empfohlene Runtime ist faster-whisper statt des Original-Whisper. faster-whisper nutzt CTranslate2 und ist 4x schneller bei gleicher Genauigkeit. Auf einer T4 GPU transkribiert faster-whisper mit large-v3 eine Stunde Audio in 6 Minuten.

DSGVO: Warum Self-Hosting für Audiodaten Pflicht ist

Audiodaten sind personenbezogene Daten. Stimmen identifizieren Personen, Gesprächsinhalte können sensible Informationen enthalten. Die Übermittlung an OpenAI erfordert eine Auftragsverarbeitungsvereinbarung (AVV) und eine Datenschutz-Folgenabschätzung.

Für Branchen mit besonderem Schutzbedarf – Arztpraxen, Anwaltskanzleien, Finanzdienstleister – ist Self-Hosting die sicherere Variante. Die Daten verlassen nie das Unternehmensnetzwerk. Details zur DSGVO-konformen KI-Nutzung.

Praxisbeispiel: Callcenter spart €118.000/Jahr

Ein technischer Kundendienst mit 50 Mitarbeitern transkribiert 533 Stunden Telefonate pro Monat zur Qualitätssicherung. Vorher: Manuelle Stichproben (10 % der Anrufe), kein systematisches Monitoring.

Option 1 – OpenAI API: 533 h × €21,60/h = €11.505/Monat = €138.060/Jahr

Option 2 – Self-Hosted (2x A10): €700/Monat Cloud + €200/Monat Wartung = €10.800/Jahr

Ersparnis: €127.260/Jahr. Plus: Alle Anrufe werden transkribiert statt nur 10 %. Die Qualitätssicherung erkennt Probleme 5x schneller. Die ROI-Berechnung berücksichtigt auch den Qualitätsgewinn.

Genauigkeit: Deutsch im Test

Whisper large-v3 erreicht auf dem Common Voice 13.0 Benchmark für Deutsch eine Word Error Rate (WER) von 5,8 %. Das entspricht 94,2 % korrekt erkannten Wörtern. Zum Vergleich: Google Speech-to-Text liegt bei 5,2 % WER, Amazon Transcribe bei 6,4 %.

Für Fachsprache (Medizin, Recht, Technik) steigt die WER auf 8–12 %. Fine-Tuning auf domänenspezifische Daten senkt sie auf 4–6 %. Dafür benötigen Sie 50–200 Stunden gelabeltes Audio aus Ihrer Domäne.

Integration in bestehende Workflows

Der Self-Hosted Whisper-Server stellt eine REST-API bereit. Typische Integrationen:

CRM: Anruf-Aufnahme wird nach Gesprächsende automatisch transkribiert und im Kontakt gespeichert
ERP: Diktierte Auftragsnotizen werden transkribiert und als Freitext im Auftrag gespeichert
Dokumentenmanagement: Diktierte Befunde/Protokolle werden als Text in der Akte abgelegt

Die Integration erfordert pro System 4–8 Stunden Entwicklungsaufwand. Der KI-Leitfaden für Unternehmen beschreibt die typischen Integrationsmuster.

Häufige Fragen

Wie gut erkennt Whisper Dialekte?

Bayerisch, Schwäbisch und Sächsisch werden mit 8–15 % höherer WER erkannt als Hochdeutsch. Fine-Tuning auf regionalen Daten verbessert die Erkennung erheblich. Für Schweizerdeutsch gibt es spezialisierte Modelle.

Kann Whisper Sprecher unterscheiden?

Whisper allein erkennt keine Sprecher. Für Speaker Diarization (wer spricht wann) kombinieren Sie Whisper mit pyannote-audio. Die Kombination liefert timestamped Transkripte mit Sprecherzuordnung.

Wie schnell ist die Transkription?

Auf einer T4 GPU: 10x Echtzeit (1 Stunde Audio in 6 Minuten). Auf einer A10: 18x Echtzeit. Auf CPU: 0,5x Echtzeit (1 Stunde Audio in 2 Stunden). Für Echtzeit-Transkription während eines Gesprächs reicht eine T4.

Brauche ich Fine-Tuning für meine Branche?

Für allgemeine Geschäftssprache nein. Für Fachsprache mit vielen Fremdwörtern, Abkürzungen oder technischen Begriffen ja. Fine-Tuning auf 100 Stunden domänenspezifischem Audio senkt die WER um 30–50 %. Die Kostenplanung sollte €5.000–€10.000 für Fine-Tuning einplanen.

Kann ich auch Meetings transkribieren?

Ja. Whisper transkribiert Mehrpersonen-Meetings mit 85–90 % Genauigkeit. In Kombination mit Speaker Diarization erhalten Sie ein formatiertes Protokoll mit Sprecherwechseln. Die Qualität sinkt bei schlechten Mikrofonen oder starkem Hintergrundrauschen.