google-gemini-media

Name: google-gemini-media
Author: openclaw

Use the Gemini API (Nano Banana image generation, Veo video, Gemini TTS speech and audio understanding) to deliver end-to-end multimodal media workflows and code templates for \

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: openclaw
Category: Data Science
Views: 1

GitHub repo

About this skill

Use the Gemini API (Nano Banana image generation, Veo video, Gemini TTS speech and audio understanding) to deliver end-to-end multimodal media workflows and code templates for \

How to use

Zainstaluj umiejętność w swoim projekcie, korzystając z oficjalnego SDK Google Gen AI dla Node.js lub REST API. Upewnij się, że masz dostęp do klucza API Gemini.
Określ, jaką operację multimodalną chcesz wykonać: generowanie obrazów, analizę obrazów, tworzenie wideo, analizę wideo, generowanie mowy lub rozpoznawanie audio. Umiejętność zawiera dedykowany przepływ dla każdej z nich.
Do generowania obrazów użyj Nano Banana — przekaż tekst lub obraz do edycji, a otrzymasz obraz wyjściowy. Możesz iterować wielokrotnie, modyfikując prompt lub istniejący obraz.
Do analizy obrazów lub wideo przygotuj zawartość (plik, URL lub dane inline) i sformułuj pytanie — API zwróci opis, odpowiedzi na pytania, transkrypcję lub podsumowanie z czasownikami.
Do generowania wideo użyj Veo 3.1 — podaj tekst, wybierz proporcje i rozdzielczość, opcjonalnie dodaj obraz referencyjny lub określ pierwszą i ostatnią klatkę. Wideo będzie zawierać natywny dźwięk.
Do pracy z mową: generuj mowę z tekstu, kontrolując styl, akcent, tempo i ton, lub prześlij audio do transkrypcji, opisu lub zliczenia tokenów. Wszystkie szablony kodu znajdują się w repozytorium — mapuj strukturę żądań i wybór modelu na swoją warstwę implementacji.

Related skills

data-storytelling

by wshobson

Transform data into compelling narratives using visualization, context, and persuasive structure. Use when presenting analytics to stakeholders, creating data reports, or building executive presentations.

Data Science

26105

market-analysis

by xbklairith

Use when analyzing markets or interpreting charts - applies technical indicators (RSI, MACD, Moving Averages), identifies support/resistance, analyzes multi-timeframe trends, checks fundamentals and sentiment. Activates when user says \

Data Science

29144

arxiv-search

by langchain-ai

Search arXiv preprint repository for papers in physics, mathematics, computer science, quantitative biology, and related fields

Data Science

76172

xlsx

by anthropics

Comprehensive spreadsheet creation, editing, and analysis with support for formulas, formatting, data analysis, and visualization. When Claude needs to work with spreadsheets (.xlsx, .xlsm, .csv, .tsv, etc) for: (1) Creating new spreadsheets with formulas and formatting, (2)

Data Science

40128

excalidraw

by ryanquinn3

Data Science

124204

pdf

by anthropics

Comprehensive PDF manipulation toolkit for extracting text and tables, creating new PDFs, merging/splitting documents, and handling forms. When Claude needs to fill in a PDF form or programmatically process, generate, or analyze PDF documents at scale.

Data Science

31144