W
whisper-transcription
Transcribe audio/video to text with word-level timestamps using OpenAI Whisper. Use when you need speech-to-text with accurate timing information for each word.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Transcribe audio/video to text with word-level timestamps using OpenAI Whisper. Use when you need speech-to-text with accurate timing information for each word.
How to use
- Zainstaluj bibliotekę Whisper za pomocą polecenia pip install openai-whisper w swoim środowisku Python.
- Przygotuj plik audio lub wideo, który chcesz transkrybować — Whisper obsługuje popularne formaty takie jak MP3, WAV, MP4 i inne.
- Załaduj wybrany model Whisper (zalecane jest rozpoczęcie od modelu tiny ze względu na szybkość — doskonale radzi sobie z czystym dźwiękiem).
- Uruchom transkrypcję z włączoną opcją word_timestamps=True, aby uzyskać dokładne czasy dla każdego słowa — możesz również określić język nagrania dla lepszej dokładności.
- Wyodrębnij słowa z ich znacznikami czasowymi z wyniku transkrypcji — każde słowo będzie zawierać tekst oraz czasy rozpoczęcia i zakończenia.
- Zapisz wynik w formacie JSON lub innym wybranym formacie — możesz teraz używać tych danych do dalszej analizy, edycji lub integracji z innymi narzędziami.