vision-sandbox
Agentic Vision via Gemini's native Code Execution sandbox. Use for spatial grounding, visual math, and UI auditing.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Agentic Vision via Gemini's native Code Execution sandbox. Use for spatial grounding, visual math, and UI auditing.
How to use
Zainstaluj umiejętność za pomocą polecenia clawhub install vision-sandbox. Upewnij się, że masz zainstalowany narzędzie uv i ustawioną zmienną środowiskową GEMINI_API_KEY z kluczem API Gemini.
Przygotuj obraz, który chcesz analizować — może to być zrzut ekranu, fotografia lub dowolny plik PNG. Zapamiętaj ścieżkę do pliku na twoim komputerze.
Uruchom vision-sandbox z polecenia uv run vision-sandbox --image "ścieżka/do/obrazu.png" --prompt "twoja instrukcja". Zastąp ścieżkę rzeczywistą lokalizacją pliku.
W parametrze prompt opisz, co chcesz zrobić. Na przykład: "Zlokalizuj przycisk 'Wyślij' i zwróć jego współrzędne [x, y] w skali [0, 1000]" do określenia pozycji elementu, "Policz liczbę elementów na liście" do liczenia obiektów, lub "Sprawdź, czy tekst nagłówka nakłada się na ikony" do audytu interfejsu.
Model Gemini napisze i uruchomi kod Pythona w piaskownicy, aby przeanalizować obraz. Wynik będzie zawierać współrzędne, liczby lub informacje o nakładaniu się elementów — dokładnie to, o co poprosiłeś.
Jeśli pracujesz z agentami kodującymi, możesz przekazać wynik JSON z metadanymi wizualnymi (współrzędne, rozmiary, kolory) do narzędzia takiego jak OpenCode, aby automatycznie generować lub poprawiać CSS i HTML na podstawie analizy.