parakeet-stt
Local speech-to-text with NVIDIA Parakeet TDT 0.6B v3 (ONNX on CPU). 30x faster than Whisper, 25 languages, auto-detection, OpenAI-compatible API. Use when transcribing audio files, converting speech to text, or processing voice recordings locally without cloud APIs.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Local speech-to-text with NVIDIA Parakeet TDT 0.6B v3 (ONNX on CPU). 30x faster than Whisper, 25 languages, auto-detection, OpenAI-compatible API. Use when transcribing audio files, converting speech to text, or processing voice recordings locally without cloud APIs.
How to use
Zainstaluj narzędzie: sklonuj repozytorium
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git, przejdź do katalogu i uruchomdocker compose up -d parakeet-cpu. Alternatywnie zainstaluj zależności (pip install -r requirements.txt) i uruchom serwer:uvicorn app.main:app --host 0.0.0.0 --port 5000.Sprawdź, że serwer słucha na porcie 5000 (lub ustaw zmienną
PARAKEET_URLna inny adres, np.http://localhost:5092).Przygotuj plik audio (MP3, WAV lub inny obsługiwany format) i wyślij go do API. Użyj curl:
curl -X POST http://localhost:5000/v1/audio/transcriptions -F "file=@/path/to/audio.mp3" -F "response_format=text"— otrzymasz czysty tekst transkrypcji.Jeśli potrzebujesz znaczników czasowych, zmień
response_formatnaverbose_json. Dla napisów SRT użyjresponse_format=srt.W Pythonie użyj biblioteki OpenAI: zaimportuj
OpenAI, utwórz klienta zbase_urlwskazującym na Twój serwer Parakeet i wywołajclient.audio.transcriptions.create()z plikiem audio — model automatycznie rozpozna język i zwróci transkrypcję.