Toolverse
All skills

parakeet-stt

by openclaw

Local speech-to-text with NVIDIA Parakeet TDT 0.6B v3 (ONNX on CPU). 30x faster than Whisper, 25 languages, auto-detection, OpenAI-compatible API. Use when transcribing audio files, converting speech to text, or processing voice recordings locally without cloud APIs.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
openclaw
Category
DevOps
Views
8

About this skill

Local speech-to-text with NVIDIA Parakeet TDT 0.6B v3 (ONNX on CPU). 30x faster than Whisper, 25 languages, auto-detection, OpenAI-compatible API. Use when transcribing audio files, converting speech to text, or processing voice recordings locally without cloud APIs.

How to use

  1. Zainstaluj narzędzie: sklonuj repozytorium git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git, przejdź do katalogu i uruchom docker compose up -d parakeet-cpu. Alternatywnie zainstaluj zależności (pip install -r requirements.txt) i uruchom serwer: uvicorn app.main:app --host 0.0.0.0 --port 5000.

  2. Sprawdź, że serwer słucha na porcie 5000 (lub ustaw zmienną PARAKEET_URL na inny adres, np. http://localhost:5092).

  3. Przygotuj plik audio (MP3, WAV lub inny obsługiwany format) i wyślij go do API. Użyj curl: curl -X POST http://localhost:5000/v1/audio/transcriptions -F "file=@/path/to/audio.mp3" -F "response_format=text" — otrzymasz czysty tekst transkrypcji.

  4. Jeśli potrzebujesz znaczników czasowych, zmień response_format na verbose_json. Dla napisów SRT użyj response_format=srt.

  5. W Pythonie użyj biblioteki OpenAI: zaimportuj OpenAI, utwórz klienta z base_url wskazującym na Twój serwer Parakeet i wywołaj client.audio.transcriptions.create() z plikiem audio — model automatycznie rozpozna język i zwróci transkrypcję.

Related skills