voice-agents
Voice agents represent the frontier of AI interaction - humans speaking naturally with AI systems. The challenge isn't just speech recognition and synthesis, it's achieving natural conversation flow with sub-800ms latency while handling interruptions, background noise, and
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Voice agents represent the frontier of AI interaction - humans speaking naturally with AI systems. The challenge isn't just speech recognition and synthesis, it's achieving natural conversation flow with sub-800ms latency while handling interruptions, background noise, and emotional nuance. This skill covers two architectures: speech-to-speech (OpenAI Realtime API, lowest latency, most natural) and pipeline (STT→LLM→TTS, more control, easier to debug). Key insight: latency is the constraint. Hu
How to use
Zainstaluj skill voice-agents z repozytorium davila7/claude-code-templates, katalog cli-tool/components/skills/ai-research/voice-agents. Skill wymaga dostępu do OpenAI Realtime API lub komponentów STT, LLM i TTS.
Wybierz architekturę: speech-to-speech (S2S) dla najniższej latencji i naturalności, lub potok STT→LLM→TTS jeśli potrzebujesz kontroli nad każdym etapem przetwarzania.
Zabudżetuj latencję dla każdego komponentu w łańcuchu. Pamiętaj, że każdy element dodaje milisekundy — suma wszystkich opóźnień decyduje, czy rozmowa będzie naturalna czy sztywna. Cel: poniżej 800ms całkowitej latencji.
Implementuj detekcję aktywności głosu (VAD) do wykrywania, kiedy użytkownik zaczyna i kończy mówić. Używaj semantycznego VAD zamiast detektora ciszy, aby uniknąć fałszywych przerwań.
Dodaj detekcję przerwania (barge-in detection), aby agent mógł reagować na przerwania użytkownika w trakcie swojej odpowiedzi.
Ograniczaj długość odpowiedzi agenta w promptach systemowych — długie monologi zwiększają latencję i psują naturalność rozmowy.