llava
Large Language and Vision Assistant. Enables visual instruction tuning and image-based conversations. Combines CLIP vision encoder with Vicuna/LLaMA language models. Supports multi-turn image chat, visual question answering, and instruction following. Use for vision-language
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Large Language and Vision Assistant. Enables visual instruction tuning and image-based conversations. Combines CLIP vision encoder with Vicuna/LLaMA language models. Supports multi-turn image chat, visual question answering, and instruction following. Use for vision-language chatbots or image understanding tasks. Best for conversational image analysis.
How to use
Sklonuj repozytorium LLaVA z GitHuba i przejdź do katalogu projektu za pomocą git clone.
Zainstaluj pakiet wraz z zależnościami (transformers, torch, pillow) uruchamiając pip install -e . w głównym katalogu.
Wczytaj wstępnie wytrenowany model, na przykład llava-v1.5-7b, używając funkcji load_pretrained_model z modułu llava.model.builder — podaj ścieżkę do modelu jako parametr model_path.
Przygotuj obraz do analizy — załaduj go za pomocą biblioteki PIL (Image.open) i przetwórz za pomocą funkcji process_images z llava.mm_utils.
Sformułuj pytanie lub instrukcję dotyczącą obrazu, a następnie przekaż obraz i tekst do modelu — model zwróci odpowiedź opisującą zawartość zdjęcia lub odpowiadającą na Twoje pytanie.
Możesz prowadzić wieloturową rozmowę, zadając kolejne pytania o ten sam obraz — model zachowuje kontekst poprzednich odpowiedzi.