Published on

Individuelle Voice‑AI‑Agents im Kundenservice: Echtzeit, DSGVO, Enterprise‑Integration

Authors

Warum Voice‑AI jetzt?

Telefonie ist nach wie vor der bevorzugte Kanal im Kundenservice. Warteschleifen, schlechte Erreichbarkeit und manuelle Datenerfassung kosten Zeit und Geld. Individuelle Voice‑AI‑Agents automatisieren Standardfälle in Echtzeit, klassifizieren Anliegen, legen Tickets an und übergeben nahtlos an Mitarbeitende – ohne Daten das Unternehmen zu verlassen.

Zielbild: Was ein moderner Voice‑Agent kann

  • Echtzeit‑Gesprächsverstehen (de‑DE, Dialekte) mit niedriger Latenz
  • Intent‑Erkennung & Slot‑Füllung (z. B. Kundennummer, Bestell‑ID)
  • Aktionen in Backend‑Systemen (CRM, ERP, Ticketing, Zahlungsstatus)
  • Nahtloses Handover an Menschen inkl. Gesprächszusammenfassung
  • Mehrsprachigkeit (on demand), Barrierefreiheit (TTS)
  • Compliance‑Funktionen: Consent, PII‑Redaction, Audit‑Trail

Referenzarchitektur (on‑prem / EU‑Cloud)

telephony:
  - sip/rtp: Asterisk | FreeSWITCH | SBC (SIP Trunk)
  - webrtc: Browser/Softphone

realtime-pipeline:
  asr: faster-whisper (GPU) | Whisper large-v3 (batch)
  nlu: LLM intent & entities (Ollama: Llama 3.1/Qwen)
  policy: consent + pii-redaction + escalation
  actions: crm_api | ticket_api | order_api
  tts: Piper/Coqui XTTS (de-DE) → RTP/WebRTC stream

platform:
  runtime: Ubuntu + Docker + GPU
  auth: Keycloak/OIDC (RBAC)
  observability: Prometheus/Grafana (Latenz), Loki (Audit)
  storage: encrypted transcripts (retention 30/90 Tage)

Kern‑Bausteine (Modelle & Tools)

  • ASR (Speech‑to‑Text): faster‑whisper (Streaming), Whisper large‑v3 (Batch‑Qualität)
  • NLU/LLM: Llama 3.1 Instruct, Qwen‑Instruct – lokal via Ollama
  • Dialog/Policy: LangGraph/State Machines (De‑Eskala­tionen, Eskalationsregeln)
  • TTS (Text‑to‑Speech): Piper (leichtgewichtig), Coqui XTTSv2 (natürliche deutsche Stimmen)
  • Telephony: Asterisk/FreeSWITCH, WebRTC Gateway; DTMF‑Fallback

Beispiel‑Flow (Inbound)

  1. Anrufer:in wird verbunden → Consent‑Ansage (Aufzeichnung/Verarbeitung)
  2. ASR erzeugt Live‑Transkript → LLM klassifiziert Intent
  3. Slots werden gefüllt: z. B. „Kundennummer“ (Ziffern, gesprochen)
  4. Aktion: CRM‑Abfrage / Ticket anlegen / Bestellung prüfen
  5. Antwort via TTS (deutsch), optional Handover an Agent:in
  6. Protokollierung: Zusammenfassung, Zeitstempel, PII‑gefiltert

Beispiel: Intent + Slot‑Extraktion (Python‑Skizze)

from pydantic import BaseModel
import requests

class Slots(BaseModel):
    intent: str
    kundennummer: str | None = None
    bestell_id: str | None = None
    urgency: str | None = None

PROMPT = """
Analysiere folgendes deutschsprachiges Gesprächssegment.
Gib intent (z.B. 'reklamation', 'lieferstatus', 'rechnung'),
und extrahiere – wenn vorhanden – kundennummer, bestell_id, urgency (low|normal|high).
Antwort als kompaktes JSON.
"""


def extract_slots(text: str) -> Slots:
    resp = requests.post("http://localhost:11434/api/generate", json={
        "model": "llama3.1:8b-instruct",
        "prompt": f"{PROMPT}\n\nTEXT:\n{text}",
        "stream": False,
        "options": {"temperature": 0.0}
    }).json()
    data = resp["response"].strip()
    return Slots.model_validate_json(data)

DSGVO & Sicherheit – Must‑haves

  • Consent‑Flows (Ansage, Tastendruck, CRM‑Flag) vor Verarbeitung
  • PII‑Redaction im Transkript (Name, IBAN, Telefonnummer) vor Persistenz/Index
  • Role‑Based Access: Roh‑Audio nur für befugte Gruppen, Standardnutzer:innen sehen Zusammenfassungen
  • Retention: automatische Löschung/Anonymisierung (30/90 Tage) mit Nachweis
  • Audit‑Trail (Art. 30 DSGVO): Zweck, Rechtsgrund, technische und organisatorische Maßnahmen (TOM)

Handover, wenn es wirklich komplex wird

  • Regeln (Confidence < Schwellwert, Sensitive Topics) → menschlicher Agent
  • Übergabe mit Kurz‑Synopsis: Anliegen, bereits abgefragte Daten, vorgeschlagene Lösung
  • „Letzte Antwort“ des Voice‑Agents als Vorschlag → Agent bestätigt/editiert

Integration ins Ökosystem

  • CRM (Salesforce, Dynamics, HubSpot): Kund:in lookup, Case/Ticket anlegen
  • ERP/Shop (SAP, Navision, Odoo): Bestellstatus, Retouren, Gutschriften
  • Ticketing (Jira/ServiceNow/Zammad): Priorisierung, SLAs, Eskalation
  • Wissensdatenbanken: RAG auf Handbüchern, AGB, Produktdatenblättern

KPIs & Qualitätssteuerung

  • First‑Contact‑Resolution (FCR), AHT (Average Handling Time)
  • Automatisierungsquote (fälle ohne Agent), Eskalationsrate
  • ASR‑WER (Word Error Rate) für de‑DE, Intent‑Trefferquote
  • Kundenzufriedenheit (CSAT) nach Bot‑Interaktion

Kosten & TCO – pragmatische Richtwerte

  • Hardware: 1× GPU‑Server (RTX 4090) ~8.000 € CapEx
  • Betrieb: ~650 €/J Strom + 800 €/J Wartung = ~1.450 €/J OpEx
  • Einsparungen: Reduktion Wartezeiten, AHT, Ticket‑Nacharbeit
  • Break‑Even: bei hoher Erstlösungsquote (30–50 %) oft in < 12 Monaten

Rollout‑Fahrplan (8–12 Wochen)

  1. Woche 1–2: SIP/WebRTC‑Anbindung, Consent, PoC mit 20 echten Anrufen
  2. Woche 3–5: Intent/Slots, CRM‑Aktionen, Handover, PII‑Redaction
  3. Woche 6–8: Monitoring, Alarmierung, RBAC, Lasttests
  4. Woche 9–12: UAT, Schulung, KPI‑Tuning, Go‑Live (stufenweise)

Fazit

Eigene Voice‑AI‑Agents verbinden Echtzeit‑Verstehen, Automation und Compliance. Mit lokal betriebenen Bausteinen (Whisper, Ollama, Piper) und sauberem Architektur‑/Security‑Design entsteht ein produktiver, DSGVO‑konformer Sprachkanal, der Mitarbeitende entlastet und Kund:innen schnellere Lösungen bietet. Brauchen Sie Unterstützung beim Aufbau eines Voice‑AI‑Agents? Wir liefern Architektur, PoC, Security‑Hardening und Integration in Ihre bestehenden Systeme.

📖 Verwandte Artikel

Weitere interessante Beiträge zu ähnlichen Themen