openrouter-transcribe
Transcribe audio files via OpenRouter using audio-capable models (Gemini, GPT-4o-audio, etc).
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Transcribe audio files via OpenRouter using audio-capable models (Gemini, GPT-4o-audio, etc).
How to use
Ustaw zmienną środowiskową OPENROUTER_API_KEY na Twój klucz API OpenRouter, lub skonfiguruj go w pliku ~/.clawdbot/clawdbot.json w sekcji skills.openrouter-transcribe.apiKey.
Upewnij się, że masz zainstalowane wymagane narzędzia: ffmpeg, curl, base64 i jq. Są one niezbędne do konwersji audio, kodowania i komunikacji z API.
Uruchom podstawową transkrypcję, podając ścieżkę do pliku audio: {baseDir}/scripts/transcribe.sh /ścieżka/do/audio.m4a. Wynik pojawi się w standardowym wyjściu (stdout).
Aby użyć inny model, dodaj flagę --model, na przykład: {baseDir}/scripts/transcribe.sh audio.ogg --model openai/gpt-4o-audio-preview. Domyślnie używany jest google/gemini-2.5-flash.
Jeśli chcesz dostosować instrukcje transkrypcji, użyj flagi --prompt: {baseDir}/scripts/transcribe.sh audio.m4a --prompt "Transkrybuj ze wskazaniem mówców". Aby zapisać wynik do pliku zamiast wyświetlać go na ekranie, dodaj flagę --out: {baseDir}/scripts/transcribe.sh audio.m4a --out /tmp/transkrypcja.txt.
Opcjonalnie możesz dodać flagę --title, aby ustawić niestandardowy identyfikator w panelu OpenRouter: {baseDir}/scripts/transcribe.sh audio.m4a --title "MojaAplikacja". Skrypt automatycznie konwertuje audio do WAV (mono, 16 kHz), koduje je w base64 i wysyła do OpenRouter, a następnie wyodrębnia transkrypcję z odpowiedzi.