Toolverse
All skills

ai-multimodal

by mrgoonie

Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
mrgoonie
Category
Data Science
Views
99

About this skill

Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Qu0026A, segmentation), process videos (scene detection, Qu0026A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.

How to use

  1. Zainstaluj umiejętność w swoim środowisku Claude, dodając folder ai-multimodal do katalogu skills.

  2. Skonfiguruj dostęp do Google Gemini API, ustawiając klucz API w zmiennych środowiskowych lub przekazując go podczas inicjalizacji.

  3. Aby transkrybować audio, prześlij plik audio (do 9,5 godziny) — umiejętność zwróci transkrypcję z czasami i podsumowanie zawartości.

  4. Do analizy obrazów lub zrzutów ekranu prześlij plik graficzny — otrzymasz opis, wykryte obiekty, wyodrębniony tekst (OCR) i odpowiedzi na pytania dotyczące zawartości.

  5. Dla wideo prześlij plik lub URL YouTube (do 6 godzin) — umiejętność wykryje sceny, przeanalizuje zawartość czasowo i wygeneruje transkrypcję z opisami wizualnymi.

  6. Do generowania obrazów z tekstu podaj prompt tekstowy — Gemini utworzy obraz na podstawie Twojego opisu, z możliwością edycji i dopracowania.

Related skills