Toolverse
All skills

google-gemini-media

by openclaw

Use the Gemini API (Nano Banana image generation, Veo video, Gemini TTS speech and audio understanding) to deliver end-to-end multimodal media workflows and code templates for \

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
openclaw
Category
Data Science
Views
1

About this skill

Use the Gemini API (Nano Banana image generation, Veo video, Gemini TTS speech and audio understanding) to deliver end-to-end multimodal media workflows and code templates for \

How to use

  1. Zainstaluj umiejętność w swoim projekcie, korzystając z oficjalnego SDK Google Gen AI dla Node.js lub REST API. Upewnij się, że masz dostęp do klucza API Gemini.

  2. Określ, jaką operację multimodalną chcesz wykonać: generowanie obrazów, analizę obrazów, tworzenie wideo, analizę wideo, generowanie mowy lub rozpoznawanie audio. Umiejętność zawiera dedykowany przepływ dla każdej z nich.

  3. Do generowania obrazów użyj Nano Banana — przekaż tekst lub obraz do edycji, a otrzymasz obraz wyjściowy. Możesz iterować wielokrotnie, modyfikując prompt lub istniejący obraz.

  4. Do analizy obrazów lub wideo przygotuj zawartość (plik, URL lub dane inline) i sformułuj pytanie — API zwróci opis, odpowiedzi na pytania, transkrypcję lub podsumowanie z czasownikami.

  5. Do generowania wideo użyj Veo 3.1 — podaj tekst, wybierz proporcje i rozdzielczość, opcjonalnie dodaj obraz referencyjny lub określ pierwszą i ostatnią klatkę. Wideo będzie zawierać natywny dźwięk.

  6. Do pracy z mową: generuj mowę z tekstu, kontrolując styl, akcent, tempo i ton, lub prześlij audio do transkrypcji, opisu lub zliczenia tokenów. Wszystkie szablony kodu znajdują się w repozytorium — mapuj strukturę żądań i wybór modelu na swoją warstwę implementacji.

Related skills