Übersicht der Modi
Modus | Latenz | Sprachqualität | Beste Anwendung |
---|---|---|---|
Pipeline | ~800 – 1500 ms (hängt von Sprache & Modell ab) | Sehr hoch | Komplexes Reasoning, dynamische Prompts, mehrsätzige Antworten |
Speech-to-Speech | ~300 – 600 ms (ultra niedrig) | Hoch | Natürlicher Dialog, kurze & reaktive Antworten |
Dualplex (Beta) | Niedrig (variiert je nach Stimme und Modell) | Sehr hoch | Schnelle Antworten mit hochwertigen/Markenstimmen (geklont) |
1. Pipeline
UI-Bezeichnung: PipelineFunktionsweise: Speech-to-Text → LLM → Text-to-Speech
Latenz: ~800 – 1500 ms (hängt von Sprache & Modell ab)
Am besten für: Komplexes Reasoning, dynamische Prompts, mehrsätzige Antworten
Wie es funktioniert
Der Pipeline-Modus transkribiert zuerst die Wörter des Anrufers in Text, führt diesen Text durch das Sprachmodell und konvertiert die Antwort dann zurück in Audio. Es ist ein bewährter Ansatz, der maximale Flexibilität bietet:Vorteile
- Unterstützt alle Stimmen in der Bibliothek (einschließlich benutzerdefiniert geklonter Stimmen)
- Bewältigt lange Antworten oder Antworten im Absatzstil gut
- Ermöglicht dem LLM Variablen einzufügen und früheren Kontext sauber zu referenzieren
- Maximale Kontrolle: Vollständige Anpassung aller Verarbeitungsschritte
- Bewährte Technologie: Stabile, erprobte Implementierung
Wann Pipeline wählen
- Sie benötigen reichhaltige, mehrsätzige Antworten (z.B. Support-Anfragen, detaillierte Erklärungen)
- Der Assistent muss über strukturierte Daten oder komplexe Prompts reasoning betreiben
- Sie bevorzugen absolute Kontrolle über die gesprochene Stimme (Klon- oder Markenstimme)
2. Speech-to-Speech (Multimodal)
UI-Bezeichnung: Speech-to-SpeechFunktionsweise: Direkte Speech-to-Speech-Generierung (keine Zwischentext)
Latenz: ~300 – 600 ms (ultra niedrig)
Am besten für: Natürlicher Dialog, kurze & reaktive Antworten
Wie es funktioniert
Der Speech-to-Speech-Modus überspringt separate Transkription und TTS. Stattdessen verwendet er ein multimodales Modell, das direkt zuhört und spricht und dadurch einen natürlicheren Gesprächsfluss erzeugt:Vorteile
- Schnelles Turn-Taking: Anrufer erleben nahezu sofortige Antworten
- Generiert natürlichere Prosodie: (Intonation, Füllwörter) nativ
- Unterstützt derzeit eine begrenzte Stimmauswahl, aber mehr werden regelmäßig hinzugefügt
- Natürlicher Gesprächsfluss: Behält Intonation und Emotionen bei
Wann Speech-to-Speech wählen
- Das Gespräch muss sich flüssig anfühlen (Verkauf, Buchungsbestätigungen)
- Ihre Antworten sind im Allgemeinen kurze Sätze oder schnelle Bestätigungen
- Sie sind mit den systemseitig bereitgestellten Stimmoptionen für schnellere Interaktion einverstanden
Speech-to-Speech entwickelt sich schnell weiter. Wenn Sie eine benutzerdefiniert geklonte Stimme mit niedriger Latenz benötigen, probieren Sie Dualplex aus.
3. Dualplex (Beta)
UI-Bezeichnung: DualplexFunktionsweise: Multimodales STT + LLM (Speech-to-Speech) mit ElevenLabs TTS-Ausgabe
Latenz: Niedrig (variiert je nach Stimme und Modell)
Am besten für: Schnelle, natürliche Antworten mit hochwertigen/Markenstimmen (geklont)
Wie es funktioniert
Dualplex kombiniert die Reaktionsfähigkeit von Speech-to-Speech mit den Premium-Stimmen und dem Klonen von ElevenLabs, die im Pipeline-Modus verwendet werden. Der Assistent nutzt das multimodale Modell, um den Anrufer zu verstehen und die Antwort zu planen, und rendert dann die finale Sprache über ElevenLabs für konsistente, hochauflösende Ausgabe.Vorteile
- Nahezu sofortiges Turn-Taking: Ähnlich wie Speech-to-Speech
- Zugang zur ElevenLabs-Stimmenbibliothek: Einschließlich benutzerdefiniert geklonter Stimmen
- Ausdrucksstarke Prosodie: Ideal für kurze bis mittellange Antworten
- Empfohlener Standard für die meisten Anwendungsfälle heute: Derzeit in Beta
Wann Dualplex wählen
- Sie möchten schnellen Dialog, benötigen aber eine Marken- oder geklonte Stimme
- Sie wünschen sich ausdrucksstärkere Wiedergabe ohne Verzicht auf präzise Stimmauswahl
- Sie sind mit der Nutzung neuer Funktionen vertraut, die sich noch in der Beta-Phase befinden
Modi wechseln
Sie können den Modus für jeden Assistenten unter Assistent → Einstellungen → Voice Engine auswählen. Testen Sie alle drei Modi, um herauszufinden, welcher die beste Balance aus Geschwindigkeit und Qualität für Ihren Anwendungsfall bietet. Dualplex ist derzeit als Beta gekennzeichnet.Pro-Tipp: Nehmen Sie zwei Anrufe auf – einen in jedem Modus – und vergleichen Sie die wahrgenommene Latenz und das Engagement-Level des Anrufers, um zu entscheiden, welcher zu Ihrem Arbeitsablauf passt.
Nächste Schritte
Best Practices
Optimieren Sie Ihre Assistenten-Einstellungen nach Modus
Stimmauswahl
Wählen Sie die richtige Stimme für Ihren Modus
System-Prompt
Schreiben Sie modusoptimierte System-Prompts
Assistenten testen
Testen Sie verschiedene Modi mit Ihrem Assistenten
Benötigen Sie Hilfe bei der Modusauswahl? Siehe Best Practices für detaillierte Empfehlungen.