google-gemini-media
Use the Gemini API (Nano Banana image generation, Veo video, Gemini TTS speech and audio understanding) to deliver end-to-end multimodal media workflows and code templates for \
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Use the Gemini API (Nano Banana image generation, Veo video, Gemini TTS speech and audio understanding) to deliver end-to-end multimodal media workflows and code templates for \
How to use
Zainstaluj umiejętność w swoim projekcie, korzystając z oficjalnego SDK Google Gen AI dla Node.js lub REST API. Upewnij się, że masz dostęp do klucza API Gemini.
Określ, jaką operację multimodalną chcesz wykonać: generowanie obrazów, analizę obrazów, tworzenie wideo, analizę wideo, generowanie mowy lub rozpoznawanie audio. Umiejętność zawiera dedykowany przepływ dla każdej z nich.
Do generowania obrazów użyj Nano Banana — przekaż tekst lub obraz do edycji, a otrzymasz obraz wyjściowy. Możesz iterować wielokrotnie, modyfikując prompt lub istniejący obraz.
Do analizy obrazów lub wideo przygotuj zawartość (plik, URL lub dane inline) i sformułuj pytanie — API zwróci opis, odpowiedzi na pytania, transkrypcję lub podsumowanie z czasownikami.
Do generowania wideo użyj Veo 3.1 — podaj tekst, wybierz proporcje i rozdzielczość, opcjonalnie dodaj obraz referencyjny lub określ pierwszą i ostatnią klatkę. Wideo będzie zawierać natywny dźwięk.
Do pracy z mową: generuj mowę z tekstu, kontrolując styl, akcent, tempo i ton, lub prześlij audio do transkrypcji, opisu lub zliczenia tokenów. Wszystkie szablony kodu znajdują się w repozytorium — mapuj strukturę żądań i wybór modelu na swoją warstwę implementacji.