Toolverse
All skills

gemini-stt

by openclaw

Transcribe audio files using Google's Gemini API or Vertex AI

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
openclaw
Category
Data Science

About this skill

Transcribe audio files using Google's Gemini API or Vertex AI

How to use

  1. Upewnij się, że masz zainstalowany Python 3.10 lub nowszy. Pobierz umiejętność z repozytorium openclaw i umieść ją w katalogu ~/.claude/skills/gemini-stt.

  2. Skonfiguruj autentykację. Jeśli chcesz używać Vertex AI (zalecane), zaloguj się do gcloud: gcloud auth application-default login, a następnie ustaw projekt: gcloud config set project TWÓJ_ID_PROJEKTU. Alternatywnie, jeśli wolisz bezpośredni dostęp do Gemini API, ustaw zmienną środowiskową GEMINI_API_KEY w pliku ~/.env lub ~/.clawdbot/.env.

  3. Przygotuj plik audio w jednym z obsługiwanych formatów: OGG, MP3, WAV lub M4A. Możesz użyć pliku lokalnego lub pliku z katalogu ~/.clawdbot/media/inbound/ (przydatne dla wiadomości głosowych z Telegramu).

  4. Uruchom transkrypcję poleceniem: python ~/.claude/skills/gemini-stt/transcribe.py /ścieżka/do/pliku.ogg. Skrypt automatycznie wykryje dostępną metodę autentykacji (najpierw spróbuje ADC, potem klucz API).

  5. Jeśli chcesz wymusić Vertex AI, dodaj flagę --vertex. Aby użyć innego modelu, dodaj --model gemini-2.5-pro. Dla Vertex AI możesz również określić projekt i region: --project mój-projekt --region us-central1.

  6. Czekaj na wynik – transkrypcja pojawi się w konsoli. Możesz teraz użyć tekstu w swoim agencie lub zapisać go do pliku.

Related skills

quant-analyst

by zenobi-us

Expert quantitative analyst specializing in financial modeling, algorithmic trading, and risk analytics. Masters statistical methods, derivatives pricing, and high-frequency trading with focus on mathematical rigor, performance optimization, and profitable strategy development.

Data Science
67217

threejs

by mrgoonie

Build 3D web apps with Three.js (WebGL/WebGPU). Use for 3D scenes, animations, custom shaders, PBR materials, VR/XR experiences, games, data visualizations, product configurators.

Data Science
1743

skill-creator

by anthropics

Guide for creating effective skills. This skill should be used when users want to create a new skill (or update an existing skill) that extends Claude's capabilities with specialized knowledge, workflows, or tool integrations.

Data Science
59147

infographic-creation

by antvis

Create beautiful infographics based on the given text content. Use this when users request creating infographics.

Data Science
60199

pdf

by anthropics

Comprehensive PDF manipulation toolkit for extracting text and tables, creating new PDFs, merging/splitting documents, and handling forms. When Claude needs to fill in a PDF form or programmatically process, generate, or analyze PDF documents at scale.

Data Science
31144

web-artifacts-builder

by anthropics

Suite of tools for creating elaborate, multi-component claude.ai HTML artifacts using modern frontend web technologies (React, Tailwind CSS, shadcn/ui). Use for complex artifacts requiring state management, routing, or shadcn/ui components - not for simple single-file HTML/JSX

Data Science
37124