whisper
OpenAI's general-purpose speech recognition model. Supports 99 languages, transcription, translation to English, and language identification. Six model sizes from tiny (39M params) to large (1550M params). Use for speech-to-text, podcast transcription, or multilingual audio
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
OpenAI's general-purpose speech recognition model. Supports 99 languages, transcription, translation to English, and language identification. Six model sizes from tiny (39M params) to large (1550M params). Use for speech-to-text, podcast transcription, or multilingual audio processing. Best for robust, multilingual ASR.
How to use
Zainstaluj Whisper za pomocą pip (wymaga Python 3.8–3.11): uruchom polecenie
pip install -U openai-whisper. Upewnij się, że masz zainstalowany ffmpeg – na macOS użyjbrew install ffmpeg, na Ubuntusudo apt install ffmpeg, na Windowschoco install ffmpeg.Załaduj model Whisper w Pythonie – zaimportuj bibliotekę
whisperi wczytaj wybrany model poleceniemwhisper.load_model("base"). Dostępne są warianty: tiny, base, small, medium, large i turbo – wybierz w zależności od wymaganej szybkości i jakości.Transkrybuj plik audio, przekazując ścieżkę do pliku metodzie
transcribe()– na przykładresult = model.transcribe("audio.mp3"). Model automatycznie wykryje język i zwróci pełny tekst transkrypcji.Wyświetl wynik transkrypcji – dostęp do pełnego tekstu uzyskasz przez
result["text"], a do poszczególnych segmentów (z czasami) przez iterację poresult["segments"], gdzie każdy segment zawiera czas początkowy, końcowy i tekst.