gemini-stt

Name: gemini-stt
Author: openclaw

by openclaw

Transcribe audio files using Google's Gemini API or Vertex AI

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: openclaw
Category: Data Science

GitHub repo

About this skill

Transcribe audio files using Google's Gemini API or Vertex AI

How to use

Upewnij się, że masz zainstalowany Python 3.10 lub nowszy. Pobierz umiejętność z repozytorium openclaw i umieść ją w katalogu ~/.claude/skills/gemini-stt.
Skonfiguruj autentykację. Jeśli chcesz używać Vertex AI (zalecane), zaloguj się do gcloud: gcloud auth application-default login, a następnie ustaw projekt: gcloud config set project TWÓJ_ID_PROJEKTU. Alternatywnie, jeśli wolisz bezpośredni dostęp do Gemini API, ustaw zmienną środowiskową GEMINI_API_KEY w pliku ~/.env lub ~/.clawdbot/.env.
Przygotuj plik audio w jednym z obsługiwanych formatów: OGG, MP3, WAV lub M4A. Możesz użyć pliku lokalnego lub pliku z katalogu ~/.clawdbot/media/inbound/ (przydatne dla wiadomości głosowych z Telegramu).
Uruchom transkrypcję poleceniem: python ~/.claude/skills/gemini-stt/transcribe.py /ścieżka/do/pliku.ogg. Skrypt automatycznie wykryje dostępną metodę autentykacji (najpierw spróbuje ADC, potem klucz API).
Jeśli chcesz wymusić Vertex AI, dodaj flagę --vertex. Aby użyć innego modelu, dodaj --model gemini-2.5-pro. Dla Vertex AI możesz również określić projekt i region: --project mój-projekt --region us-central1.
Czekaj na wynik – transkrypcja pojawi się w konsoli. Możesz teraz użyć tekstu w swoim agencie lub zapisać go do pliku.

Related skills

quant-analyst

by zenobi-us

Expert quantitative analyst specializing in financial modeling, algorithmic trading, and risk analytics. Masters statistical methods, derivatives pricing, and high-frequency trading with focus on mathematical rigor, performance optimization, and profitable strategy development.

Data Science

67217

threejs

by mrgoonie

Build 3D web apps with Three.js (WebGL/WebGPU). Use for 3D scenes, animations, custom shaders, PBR materials, VR/XR experiences, games, data visualizations, product configurators.

Data Science

1743

skill-creator

by anthropics

Guide for creating effective skills. This skill should be used when users want to create a new skill (or update an existing skill) that extends Claude's capabilities with specialized knowledge, workflows, or tool integrations.

Data Science

59147

infographic-creation

by antvis

Create beautiful infographics based on the given text content. Use this when users request creating infographics.

Data Science

60199

pdf

by anthropics

Comprehensive PDF manipulation toolkit for extracting text and tables, creating new PDFs, merging/splitting documents, and handling forms. When Claude needs to fill in a PDF form or programmatically process, generate, or analyze PDF documents at scale.

Data Science

31144

web-artifacts-builder

by anthropics

Suite of tools for creating elaborate, multi-component claude.ai HTML artifacts using modern frontend web technologies (React, Tailwind CSS, shadcn/ui). Use for complex artifacts requiring state management, routing, or shadcn/ui components - not for simple single-file HTML/JSX

Data Science

37124