Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Local Voice Input/Output for Agents using the AI Voice Agent API.
How to use
Upewnij się, że masz uruchomiony backend API na adresie http://localhost:8000. Instrukcje konfiguracji backendu znajdziesz w pliku README.md, walkthrough.md lub DOCKER_README.md w repozytorium projektu.
Zainstaluj skill voice-agent w swoim środowisku agenta. Skill jest klientem i nie wymaga uruchamiania dodatkowych kontenerów — komunikuje się z istniejącym API.
Aby transkrybować plik audio, użyj polecenia transcribe z ścieżką do pliku: python3 {baseDir}/scripts/client.py transcribe "/ścieżka/do/pliku.ogg". Whisper przetworzy audio na tekst.
Agent przetwarza transkrypcję i przygotowuje odpowiedź tekstową. Nie wysyłaj tej odpowiedzi użytkownikowi — przejdź do następnego kroku.
Aby wygenerować audio z odpowiedzi, użyj polecenia synthesize: python3 {baseDir}/scripts/client.py synthesize "Tekst do wymówienia" --output "/ścieżka/do/wyjścia.mp3". AWS Polly utworzy plik audio.
Wyślij wygenerowany plik audio użytkownikowi. Nie dodawaj żadnego tekstu wyjaśniającego — audio jest kompletną odpowiedzią. Jeśli API nie odpowiada, sprawdź status backendu za pomocą polecenia health i upewnij się, że serwer działa prawidłowo.