ai-multimodal
Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Qu0026A, segmentation), process videos (scene detection, Qu0026A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.
How to use
Zainstaluj umiejętność w swoim środowisku Claude, dodając folder ai-multimodal do katalogu skills.
Skonfiguruj dostęp do Google Gemini API, ustawiając klucz API w zmiennych środowiskowych lub przekazując go podczas inicjalizacji.
Aby transkrybować audio, prześlij plik audio (do 9,5 godziny) — umiejętność zwróci transkrypcję z czasami i podsumowanie zawartości.
Do analizy obrazów lub zrzutów ekranu prześlij plik graficzny — otrzymasz opis, wykryte obiekty, wyodrębniony tekst (OCR) i odpowiedzi na pytania dotyczące zawartości.
Dla wideo prześlij plik lub URL YouTube (do 6 godzin) — umiejętność wykryje sceny, przeanalizuje zawartość czasowo i wygeneruje transkrypcję z opisami wizualnymi.
Do generowania obrazów z tekstu podaj prompt tekstowy — Gemini utworzy obraz na podstawie Twojego opisu, z możliwością edycji i dopracowania.