ai-multimodal

Name: ai-multimodal
Author: mrgoonie

by mrgoonie

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: mrgoonie
Category: Data Science
Views: 99

GitHub repo

About this skill

Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Qu0026A, segmentation), process videos (scene detection, Qu0026A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.

How to use

Zainstaluj umiejętność w swoim środowisku Claude, dodając folder ai-multimodal do katalogu skills.
Skonfiguruj dostęp do Google Gemini API, ustawiając klucz API w zmiennych środowiskowych lub przekazując go podczas inicjalizacji.
Aby transkrybować audio, prześlij plik audio (do 9,5 godziny) — umiejętność zwróci transkrypcję z czasami i podsumowanie zawartości.
Do analizy obrazów lub zrzutów ekranu prześlij plik graficzny — otrzymasz opis, wykryte obiekty, wyodrębniony tekst (OCR) i odpowiedzi na pytania dotyczące zawartości.
Dla wideo prześlij plik lub URL YouTube (do 6 godzin) — umiejętność wykryje sceny, przeanalizuje zawartość czasowo i wygeneruje transkrypcję z opisami wizualnymi.
Do generowania obrazów z tekstu podaj prompt tekstowy — Gemini utworzy obraz na podstawie Twojego opisu, z możliwością edycji i dopracowania.

Related skills

nano-banana-pro

by garg-aayush

Generate and edit images using Google's Nano Banana Pro (Gemini 3 Pro Image) API. Use when the user asks to generate, create, edit, modify, change, alter, or update images. Also use when user references an existing image file and asks to modify it in any way (e.g., \

Data Science

535772

excalidraw

by ryanquinn3

Data Science

124204

infographic-creation

by antvis

Create beautiful infographics based on the given text content. Use this when users request creating infographics.

Data Science

60199

quant-analyst

by zenobi-us

Expert quantitative analyst specializing in financial modeling, algorithmic trading, and risk analytics. Masters statistical methods, derivatives pricing, and high-frequency trading with focus on mathematical rigor, performance optimization, and profitable strategy development.

Data Science

67217

codex

by Lucklyric

Invoke Codex CLI for complex coding tasks requiring high reasoning capabilities. This skill should be invoked when users explicitly mention \

Data Science

16163

pdf

by anthropics

Comprehensive PDF manipulation toolkit for extracting text and tables, creating new PDFs, merging/splitting documents, and handling forms. When Claude needs to fill in a PDF form or programmatically process, generate, or analyze PDF documents at scale.

Data Science

31144