transcription
Audio/video transcription using OpenAI Whisper. Covers installation, model selection, transcript formats (SRT, VTT, JSON), timing synchronization, and speaker diarization. Use when transcribing media or generating subtitles.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Audio/video transcription using OpenAI Whisper. Covers installation, model selection, transcript formats (SRT, VTT, JSON), timing synchronization, and speaker diarization. Use when transcribing media or generating subtitles.
How to use
Zainstaluj Whisper – wybierz jedną z trzech opcji: standardowy OpenAI Whisper przez pip (pip install openai-whisper), szybszą wersję whisper.cpp (brew install whisper-cpp na macOS lub budowanie ze źródła na Linuxie), lub GPU-przyspieszony wariant (pip install insanely-fast-whisper). Zweryfikuj instalację poleceniem whisper --help.
Wybierz model w zależności od Twojego sprzętu i wymagań jakości. Model tiny (39M, ~1GB VRAM) nadaje się do szybkich podglądów, base (74M) do roboczych transkrypcji, small (244M, ~2GB) to dobry kompromis między szybkością a jakością, medium (769M, ~5GB) dla lepszej dokładności, a large-v3 (1550M, ~10GB) dla produkcyjnych transkrypcji najwyższej jakości.
Uruchom transkrypcję podstawową poleceniem whisper audio.mp3 --model small, które automatycznie wykryje język. Jeśli chcesz określić język, dodaj flagę --language en (lub inny kod języka).
Wybierz format wyjściowy – dodaj --output_format srt dla napisów SRT, vtt dla VTT, json dla JSON, lub all aby wygenerować wszystkie formaty jednocześnie.
Aby uzyskać dokładne czasy na poziomie słów, dodaj flagę --word_timestamps True do polecenia. Ta opcja przydaje się przy tworzeniu zaawansowanych napisów lub edycji wideo.
Czekaj na zakończenie przetwarzania – czas zależy od długości pliku, wybranego modelu i dostępnych zasobów sprzętowych. Po zakończeniu transkrypcja zostanie zapisana w wybranym formacie w tym samym katalogu co plik źródłowy.