Toolverse
All skills

llava

by zechenzhangAGI

Large Language and Vision Assistant. Enables visual instruction tuning and image-based conversations. Combines CLIP vision encoder with Vicuna/LLaMA language models. Supports multi-turn image chat, visual question answering, and instruction following. Use for vision-language

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Security
Views
112

About this skill

Large Language and Vision Assistant. Enables visual instruction tuning and image-based conversations. Combines CLIP vision encoder with Vicuna/LLaMA language models. Supports multi-turn image chat, visual question answering, and instruction following. Use for vision-language chatbots or image understanding tasks. Best for conversational image analysis.

How to use

  1. Sklonuj repozytorium LLaVA z GitHuba i przejdź do katalogu projektu za pomocą git clone.

  2. Zainstaluj pakiet wraz z zależnościami (transformers, torch, pillow) uruchamiając pip install -e . w głównym katalogu.

  3. Wczytaj wstępnie wytrenowany model, na przykład llava-v1.5-7b, używając funkcji load_pretrained_model z modułu llava.model.builder — podaj ścieżkę do modelu jako parametr model_path.

  4. Przygotuj obraz do analizy — załaduj go za pomocą biblioteki PIL (Image.open) i przetwórz za pomocą funkcji process_images z llava.mm_utils.

  5. Sformułuj pytanie lub instrukcję dotyczącą obrazu, a następnie przekaż obraz i tekst do modelu — model zwróci odpowiedź opisującą zawartość zdjęcia lub odpowiadającą na Twoje pytanie.

  6. Możesz prowadzić wieloturową rozmowę, zadając kolejne pytania o ten sam obraz — model zachowuje kontekst poprzednich odpowiedzi.

Related skills