Toolverse
All skills

openrouter-transcribe

by openclaw

Transcribe audio files via OpenRouter using audio-capable models (Gemini, GPT-4o-audio, etc).

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
openclaw
Category
Data Science
Views
12

About this skill

Transcribe audio files via OpenRouter using audio-capable models (Gemini, GPT-4o-audio, etc).

How to use

  1. Ustaw zmienną środowiskową OPENROUTER_API_KEY na Twój klucz API OpenRouter, lub skonfiguruj go w pliku ~/.clawdbot/clawdbot.json w sekcji skills.openrouter-transcribe.apiKey.

  2. Upewnij się, że masz zainstalowane wymagane narzędzia: ffmpeg, curl, base64 i jq. Są one niezbędne do konwersji audio, kodowania i komunikacji z API.

  3. Uruchom podstawową transkrypcję, podając ścieżkę do pliku audio: {baseDir}/scripts/transcribe.sh /ścieżka/do/audio.m4a. Wynik pojawi się w standardowym wyjściu (stdout).

  4. Aby użyć inny model, dodaj flagę --model, na przykład: {baseDir}/scripts/transcribe.sh audio.ogg --model openai/gpt-4o-audio-preview. Domyślnie używany jest google/gemini-2.5-flash.

  5. Jeśli chcesz dostosować instrukcje transkrypcji, użyj flagi --prompt: {baseDir}/scripts/transcribe.sh audio.m4a --prompt "Transkrybuj ze wskazaniem mówców". Aby zapisać wynik do pliku zamiast wyświetlać go na ekranie, dodaj flagę --out: {baseDir}/scripts/transcribe.sh audio.m4a --out /tmp/transkrypcja.txt.

  6. Opcjonalnie możesz dodać flagę --title, aby ustawić niestandardowy identyfikator w panelu OpenRouter: {baseDir}/scripts/transcribe.sh audio.m4a --title "MojaAplikacja". Skrypt automatycznie konwertuje audio do WAV (mono, 16 kHz), koduje je w base64 i wysyła do OpenRouter, a następnie wyodrębnia transkrypcję z odpowiedzi.

Related skills