Toolverse
All skills

voice-agents

by davila7

Voice agents represent the frontier of AI interaction - humans speaking naturally with AI systems. The challenge isn't just speech recognition and synthesis, it's achieving natural conversation flow with sub-800ms latency while handling interruptions, background noise, and

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
DevOps
Views
45

About this skill

Voice agents represent the frontier of AI interaction - humans speaking naturally with AI systems. The challenge isn't just speech recognition and synthesis, it's achieving natural conversation flow with sub-800ms latency while handling interruptions, background noise, and emotional nuance. This skill covers two architectures: speech-to-speech (OpenAI Realtime API, lowest latency, most natural) and pipeline (STT→LLM→TTS, more control, easier to debug). Key insight: latency is the constraint. Hu

How to use

  1. Zainstaluj skill voice-agents z repozytorium davila7/claude-code-templates, katalog cli-tool/components/skills/ai-research/voice-agents. Skill wymaga dostępu do OpenAI Realtime API lub komponentów STT, LLM i TTS.

  2. Wybierz architekturę: speech-to-speech (S2S) dla najniższej latencji i naturalności, lub potok STT→LLM→TTS jeśli potrzebujesz kontroli nad każdym etapem przetwarzania.

  3. Zabudżetuj latencję dla każdego komponentu w łańcuchu. Pamiętaj, że każdy element dodaje milisekundy — suma wszystkich opóźnień decyduje, czy rozmowa będzie naturalna czy sztywna. Cel: poniżej 800ms całkowitej latencji.

  4. Implementuj detekcję aktywności głosu (VAD) do wykrywania, kiedy użytkownik zaczyna i kończy mówić. Używaj semantycznego VAD zamiast detektora ciszy, aby uniknąć fałszywych przerwań.

  5. Dodaj detekcję przerwania (barge-in detection), aby agent mógł reagować na przerwania użytkownika w trakcie swojej odpowiedzi.

  6. Ograniczaj długość odpowiedzi agenta w promptach systemowych — długie monologi zwiększają latencję i psują naturalność rozmowy.

Related skills

azure-devops-rest-api

by Tiberriver256

Guide for working with Azure DevOps REST APIs and OpenAPI specifications. Use this skill when implementing new Azure DevOps API integrations, exploring API capabilities, understanding request/response formats, or referencing the official OpenAPI specifications from the

DevOps
995

3d-games

by davila7

3D game development principles. Rendering, shaders, physics, cameras.

DevOps
1355

lambda

by itsmostafa

AWS Lambda serverless functions for event-driven compute. Use when creating functions, configuring triggers, debugging invocations, optimizing cold starts, setting up event source mappings, or managing layers.

DevOps
127

planning-with-files

by davila7

Implements Manus-style file-based planning for complex tasks. Creates task_plan.md, findings.md, and progress.md. Use when starting complex multi-step tasks, research projects, or any task requiring u003e5 tool calls.

DevOps
2365

file-organizer

by ComposioHQ

Intelligently organizes your files and folders across your computer by understanding context, finding duplicates, suggesting better structures, and automating cleanup tasks. Reduces cognitive load and keeps your digital workspace tidy without manual effort.

DevOps
1399

unity-developer

by sickn33

Build Unity games with optimized C# scripts, efficient rendering, and proper asset management. Masters Unity 6 LTS, URP/HDRP pipelines, and cross-platform deployment. Handles gameplay systems, UI implementation, and platform optimization. Use PROACTIVELY for Unity performance

DevOps
66164