Toolverse
All skills

whisper-transcription

by benchflow-ai

Transcribe audio/video to text with word-level timestamps using OpenAI Whisper. Use when you need speech-to-text with accurate timing information for each word.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Data Science
Views
5

About this skill

Transcribe audio/video to text with word-level timestamps using OpenAI Whisper. Use when you need speech-to-text with accurate timing information for each word.

How to use

  1. Zainstaluj bibliotekę Whisper za pomocą polecenia pip install openai-whisper w swoim środowisku Python.
  2. Przygotuj plik audio lub wideo, który chcesz transkrybować — Whisper obsługuje popularne formaty takie jak MP3, WAV, MP4 i inne.
  3. Załaduj wybrany model Whisper (zalecane jest rozpoczęcie od modelu tiny ze względu na szybkość — doskonale radzi sobie z czystym dźwiękiem).
  4. Uruchom transkrypcję z włączoną opcją word_timestamps=True, aby uzyskać dokładne czasy dla każdego słowa — możesz również określić język nagrania dla lepszej dokładności.
  5. Wyodrębnij słowa z ich znacznikami czasowymi z wyniku transkrypcji — każde słowo będzie zawierać tekst oraz czasy rozpoczęcia i zakończenia.
  6. Zapisz wynik w formacie JSON lub innym wybranym formacie — możesz teraz używać tych danych do dalszej analizy, edycji lub integracji z innymi narzędziami.

Related skills