Zuletzt aktualisiert: 1. September 2025
1. Modus wählen
| Modus | Warum wählen? | Hinweise |
|---|---|---|
| Dualplex (Beta) | Schnelles Turn‑Taking + Premium/geklonte Stimmen | Empfohlener Standard. Kombiniere mit Gemini Flash 2.0/2.5 oder GPT‑5 Realtime. |
| Speech‑to‑Speech (Multimodal) | Schnellstes Turn‑Taking und natürlichster Gesprächsfluss | Empfohlenes Modell: GPT‑5 Realtime. |
| Pipeline | Maximale Kontrolle über Stimme und lange Antworten | Empfohlenes Modell: GPT‑5 Mini. Wenn du Pipeline wählst, fahre unten mit dem Transcriber‑Schritt fort. |
2. Transcriber wählen (nur Pipeline)
| Transcriber | Genauigkeit | Latenz | Am besten geeignet für |
|---|---|---|---|
| Azure | ⭐️⭐️⭐️⭐️ | ⏱️⏱️⏱️ (langsamer) | Wenn du die höchste Transkriptionsqualität benötigst |
| Gladia | ⭐️⭐️⭐️ | ⏱️ (schneller) | Guter Allrounder für die meisten Sprachen |
| Deepgram | ⭐️⭐️⭐️ | ⏱️ (schneller) | Weitere solide Wahl — teste, was für deine Sprache und dein Audio‑Setup besser funktioniert |
3. LLM‑Modell auswählen
| Modell | Stärken | Abwägungen |
|---|---|---|
| GPT-5 Mini | Ausgewogenes Reasoning mit niedriger Latenz | Kann langsamer sein als Realtime-Modelle für schnelle Turn-Taking |
| GPT-5 Realtime | Entwickelt für ultra-niedrige Latenz bei Sprachwendungen | Am besten für Speech-to-Speech und Dualplex |
| GPT-4o | Starkes Reasoning und multimodales Verständnis | Höhere Latenz |
| Gemini Flash 2.0 / 2.5 | Ultra-schnell für Sprachwendungen in Dualplex/Multimodal | Exzellent zur Minimierung wahrgenommener Latenz |
4. Rauschunterdrückung
Wenn Anrufer über Lautsprecher telefonieren oder es ruhig ist, lasse die Rauschunterdrückung AN. Wenn die Lautstärke niedrig ist oder Wörter „abgeschnitten“ klingen, schalte sie AUS, damit der Transcriber das volle Signal erhält.5. Konversations‑Timer
| Parameter | Empfehlung | Warum |
|---|---|---|
| Re‑engagement | ≈ 30 s | Gibt Anrufern genügend Zeit zum Nachdenken. Niedrigere Werte können aufdringlich wirken. |
| Maximale Stille‑Dauer | ≈ 60 s | Verhindert verfrühte Auflegungen und beendet dennoch wirklich stille Anrufe. |
Teste verschiedene Werte in echten Anrufen — zu niedrig unterbricht, zu hoch erzeugt peinliche Pausen.
6. Einstiegsnachricht
| Modus | Verwendung | Best Practice |
|---|---|---|
| Pipeline | Wird exakt wie geschrieben vorgelesen (per TTS) | Formuliere die Begrüßung wörtlich: „Hallo, hier ist Alex von …“. |
| Dualplex | Wird exakt wie geschrieben vorgelesen (über ElevenLabs TTS gerendert) | Formuliere die Begrüßung wörtlich, wähle dann deine geklonte Stimme aus. |
| Speech‑to‑Speech | Wird vom Modell als Prompt interpretiert | Füge Anweisungen hinzu wie „Begrüße die Kundin/den Kunden und sage …“ oder stelle sage genau: voran, um wörtliche Ausgabe zu erzwingen. |
7. Umgebungsgeräusch
Umgebungsgeräusch fügt der Stimme des Assistenten dezente Hintergrundgeräusche hinzu und ist standardmäßig aktiviert.8. Endpointing‑Regler
Steuere mit dem Endpointing‑Empfindlichkeitsregler unten in den Assistenten‑Einstellungen, wann dein Assistent zu sprechen beginnt.| Einstellung | Wirkung | Verwenden, wenn |
|---|---|---|
| Niedrige Empfindlichkeit | Assistent antwortet schneller, nachdem die Anruferin/der Anrufer aufgehört hat zu sprechen | Du möchtest knackige, schnelle Gesprächswechsel |
| Hohe Empfindlichkeit | Assistent wartet länger, bevor er antwortet | Anrufer geben längere, detailliertere Antworten |
9. Debugging mit dem Anruf‑Transkript
Wenn du Probleme mit deinem Assistenten hast, kannst du das Anruf-Transkript zur Fehlerbehebung verwenden.1
Anrufverlauf öffnen
Wechsle im Dashboard zur Seite Anrufverlauf.
2
Letzten Testanruf auswählen
Klicke auf den letzten Anruf, den du getestet hast.
3
Transkript und Funktionsaufrufe prüfen
Das Anruf-Transkript wird angezeigt, einschließlich Funktionsaufrufen und deren Parametern.
Bestätige, dass der Assistent den erwarteten Modus, das Modell und die Tools gemäß deiner Konfiguration nutzt.

