vision-sandbox

Name: vision-sandbox
Author: openclaw

by openclaw

Agentic Vision via Gemini's native Code Execution sandbox. Use for spatial grounding, visual math, and UI auditing.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: openclaw
Category: Data Science

GitHub repo

About this skill

Agentic Vision via Gemini's native Code Execution sandbox. Use for spatial grounding, visual math, and UI auditing.

How to use

Zainstaluj umiejętność za pomocą polecenia clawhub install vision-sandbox. Upewnij się, że masz zainstalowany narzędzie uv i ustawioną zmienną środowiskową GEMINI_API_KEY z kluczem API Gemini.
Przygotuj obraz, który chcesz analizować — może to być zrzut ekranu, fotografia lub dowolny plik PNG. Zapamiętaj ścieżkę do pliku na twoim komputerze.
Uruchom vision-sandbox z polecenia uv run vision-sandbox --image "ścieżka/do/obrazu.png" --prompt "twoja instrukcja". Zastąp ścieżkę rzeczywistą lokalizacją pliku.
W parametrze prompt opisz, co chcesz zrobić. Na przykład: "Zlokalizuj przycisk 'Wyślij' i zwróć jego współrzędne [x, y] w skali [0, 1000]" do określenia pozycji elementu, "Policz liczbę elementów na liście" do liczenia obiektów, lub "Sprawdź, czy tekst nagłówka nakłada się na ikony" do audytu interfejsu.
Model Gemini napisze i uruchomi kod Pythona w piaskownicy, aby przeanalizować obraz. Wynik będzie zawierać współrzędne, liczby lub informacje o nakładaniu się elementów — dokładnie to, o co poprosiłeś.
Jeśli pracujesz z agentami kodującymi, możesz przekazać wynik JSON z metadanymi wizualnymi (współrzędne, rozmiary, kolory) do narzędzia takiego jak OpenCode, aby automatycznie generować lub poprawiać CSS i HTML na podstawie analizy.

Related skills

deep-research

by davidorex

Multi-agent parallel investigation for complex VCV Rack problems

Data Science

16151

pptx

by anthropics

Presentation creation, editing, and analysis. When Claude needs to work with presentations (.pptx files) for: (1) Creating new presentations, (2) Modifying or editing content, (3) Working with layouts, (4) Adding comments or speaker notes, or any other presentation tasks

Data Science

134310

infographic-creation

by antvis

Create beautiful infographics based on the given text content. Use this when users request creating infographics.

Data Science

60199

notebooklm

by leegonzales

Query Google NotebookLM for source-grounded, citation-backed answers from uploaded documents. Reduces hallucinations through Gemini's document-only responses. Browser automation with library management and persistent authentication.

Data Science

142112

quant-analyst

by zenobi-us

Expert quantitative analyst specializing in financial modeling, algorithmic trading, and risk analytics. Masters statistical methods, derivatives pricing, and high-frequency trading with focus on mathematical rigor, performance optimization, and profitable strategy development.

Data Science

67217

docx

by anthropics

Comprehensive document creation, editing, and analysis with support for tracked changes, comments, formatting preservation, and text extraction. When Claude needs to work with professional documents (.docx files) for: (1) Creating new documents, (2) Modifying or editing content,

Data Science

39142