transcribe
Transcribe audio files to text with optional diarization and known-speaker hints. Use when a user asks to transcribe speech from audio/video, extract text from recordings, or label speakers in interviews or meetings.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Transcribe audio files to text with optional diarization and known-speaker hints. Use when a user asks to transcribe speech from audio/video, extract text from recordings, or label speakers in interviews or meetings.
How to use
Upewnij się, że masz zainstalowany Python 3 i narzędzie uv. Zainstaluj zależności poleceniem: uv pip install openai (lub python3 -m pip install openai, jeśli uv nie jest dostępne).
Ustaw zmienną środowiskową OPENAI_API_KEY z Twoim kluczem API z platformy OpenAI. Nigdy nie wklejaj klucza bezpośrednio w czacie — zamiast tego wyeksportuj go w swoim terminalu.
Przygotuj plik audio lub wideo, który chcesz transkrybować. Jeśli nagranie trwa dłużej niż ~30 sekund, skill automatycznie podzieli je na fragmenty.
Uruchom transkrypcję za pomocą bundled CLI. Dla szybkiej transkrypcji tekstu użyj domyślnych ustawień (model gpt-4o-mini-transcribe). Jeśli potrzebujesz rozpoznawania mówców, wskaż to życzenie — skill przełączy się na model gpt-4o-transcribe-diarize i zwróci wynik w formacie JSON z etykietami mówców.
Wyniki zostaną zapisane w katalogu output/transcribe/. Jeśli transkrybujesz wiele plików, użyj flagi --out-dir, aby uniknąć nadpisywania wyników.
Sprawdź jakość transkrypcji, etykiety mówców i granice segmentów. Jeśli potrzebujesz poprawy, poproś o pojedynczą, ukierunkowaną zmianę — skill obsługuje iteracyjne ulepszenia.