Individuelle Voice‑AI‑Agents im Kundenservice: Echtzeit, DSGVO, Enterprise‑Integration

Warum Voice‑AI jetzt?

Telefonie ist nach wie vor der bevorzugte Kanal im Kundenservice. Warteschleifen, schlechte Erreichbarkeit und manuelle Datenerfassung kosten Zeit und Geld. Individuelle Voice‑AI‑Agents automatisieren Standardfälle in Echtzeit, klassifizieren Anliegen, legen Tickets an und übergeben nahtlos an Mitarbeitende – ohne Daten das Unternehmen zu verlassen.

Zielbild: Was ein moderner Voice‑Agent kann

Echtzeit‑Gesprächsverstehen (de‑DE, Dialekte) mit niedriger Latenz
Intent‑Erkennung & Slot‑Füllung (z. B. Kundennummer, Bestell‑ID)
Aktionen in Backend‑Systemen (CRM, ERP, Ticketing, Zahlungsstatus)
Nahtloses Handover an Menschen inkl. Gesprächszusammenfassung
Mehrsprachigkeit (on demand), Barrierefreiheit (TTS)
Compliance‑Funktionen: Consent, PII‑Redaction, Audit‑Trail

Referenzarchitektur (on‑prem / EU‑Cloud)

telephony:
  - sip/rtp: Asterisk | FreeSWITCH | SBC (SIP Trunk)
  - webrtc: Browser/Softphone

realtime-pipeline:
  asr: faster-whisper (GPU) | Whisper large-v3 (batch)
  nlu: LLM intent & entities (Ollama: Llama 3.1/Qwen)
  policy: consent + pii-redaction + escalation
  actions: crm_api | ticket_api | order_api
  tts: Piper/Coqui XTTS (de-DE) → RTP/WebRTC stream

platform:
  runtime: Ubuntu + Docker + GPU
  auth: Keycloak/OIDC (RBAC)
  observability: Prometheus/Grafana (Latenz), Loki (Audit)
  storage: encrypted transcripts (retention 30/90 Tage)

Kern‑Bausteine (Modelle & Tools)

ASR (Speech‑to‑Text): faster‑whisper (Streaming), Whisper large‑v3 (Batch‑Qualität)
NLU/LLM: Llama 3.1 Instruct, Qwen‑Instruct – lokal via Ollama
Dialog/Policy: LangGraph/State Machines (De‑Eskalationen, Eskalationsregeln)
TTS (Text‑to‑Speech): Piper (leichtgewichtig), Coqui XTTSv2 (natürliche deutsche Stimmen)
Telephony: Asterisk/FreeSWITCH, WebRTC Gateway; DTMF‑Fallback

Beispiel‑Flow (Inbound)

Anrufer:in wird verbunden → Consent‑Ansage (Aufzeichnung/Verarbeitung)
ASR erzeugt Live‑Transkript → LLM klassifiziert Intent
Slots werden gefüllt: z. B. „Kundennummer“ (Ziffern, gesprochen)
Aktion: CRM‑Abfrage / Ticket anlegen / Bestellung prüfen
Antwort via TTS (deutsch), optional Handover an Agent:in
Protokollierung: Zusammenfassung, Zeitstempel, PII‑gefiltert

Beispiel: Intent + Slot‑Extraktion (Python‑Skizze)

from pydantic import BaseModel
import requests

class Slots(BaseModel):
    intent: str
    kundennummer: str | None = None
    bestell_id: str | None = None
    urgency: str | None = None

PROMPT = """
Analysiere folgendes deutschsprachiges Gesprächssegment.
Gib intent (z.B. 'reklamation', 'lieferstatus', 'rechnung'),
und extrahiere – wenn vorhanden – kundennummer, bestell_id, urgency (low|normal|high).
Antwort als kompaktes JSON.
"""


def extract_slots(text: str) -> Slots:
    resp = requests.post("http://localhost:11434/api/generate", json={
        "model": "llama3.1:8b-instruct",
        "prompt": f"{PROMPT}\n\nTEXT:\n{text}",
        "stream": False,
        "options": {"temperature": 0.0}
    }).json()
    data = resp["response"].strip()
    return Slots.model_validate_json(data)

DSGVO & Sicherheit – Must‑haves

Consent‑Flows (Ansage, Tastendruck, CRM‑Flag) vor Verarbeitung
PII‑Redaction im Transkript (Name, IBAN, Telefonnummer) vor Persistenz/Index
Role‑Based Access: Roh‑Audio nur für befugte Gruppen, Standardnutzer:innen sehen Zusammenfassungen
Retention: automatische Löschung/Anonymisierung (30/90 Tage) mit Nachweis
Audit‑Trail (Art. 30 DSGVO): Zweck, Rechtsgrund, technische und organisatorische Maßnahmen (TOM)

Handover, wenn es wirklich komplex wird

Regeln (Confidence < Schwellwert, Sensitive Topics) → menschlicher Agent
Übergabe mit Kurz‑Synopsis: Anliegen, bereits abgefragte Daten, vorgeschlagene Lösung
„Letzte Antwort“ des Voice‑Agents als Vorschlag → Agent bestätigt/editiert

Integration ins Ökosystem

CRM (Salesforce, Dynamics, HubSpot): Kund:in lookup, Case/Ticket anlegen
ERP/Shop (SAP, Navision, Odoo): Bestellstatus, Retouren, Gutschriften
Ticketing (Jira/ServiceNow/Zammad): Priorisierung, SLAs, Eskalation
Wissensdatenbanken: RAG auf Handbüchern, AGB, Produktdatenblättern

KPIs & Qualitätssteuerung

First‑Contact‑Resolution (FCR), AHT (Average Handling Time)
Automatisierungsquote (fälle ohne Agent), Eskalationsrate
ASR‑WER (Word Error Rate) für de‑DE, Intent‑Trefferquote
Kundenzufriedenheit (CSAT) nach Bot‑Interaktion

Kosten & TCO – pragmatische Richtwerte

Hardware: 1× GPU‑Server (RTX 4090) ~8.000 € CapEx
Betrieb: ~650 €/J Strom + 800 €/J Wartung = ~1.450 €/J OpEx
Einsparungen: Reduktion Wartezeiten, AHT, Ticket‑Nacharbeit
Break‑Even: bei hoher Erstlösungsquote (30–50 %) oft in < 12 Monaten

Rollout‑Fahrplan (8–12 Wochen)

Woche 1–2: SIP/WebRTC‑Anbindung, Consent, PoC mit 20 echten Anrufen
Woche 3–5: Intent/Slots, CRM‑Aktionen, Handover, PII‑Redaction
Woche 6–8: Monitoring, Alarmierung, RBAC, Lasttests
Woche 9–12: UAT, Schulung, KPI‑Tuning, Go‑Live (stufenweise)

Fazit

Eigene Voice‑AI‑Agents verbinden Echtzeit‑Verstehen, Automation und Compliance. Mit lokal betriebenen Bausteinen (Whisper, Ollama, Piper) und sauberem Architektur‑/Security‑Design entsteht ein produktiver, DSGVO‑konformer Sprachkanal, der Mitarbeitende entlastet und Kund:innen schnellere Lösungen bietet. Brauchen Sie Unterstützung beim Aufbau eines Voice‑AI‑Agents? Wir liefern Architektur, PoC, Security‑Hardening und Integration in Ihre bestehenden Systeme.