clip
OpenAI's model connecting vision and language. Enables zero-shot image classification, image-text matching, and cross-modal retrieval. Trained on 400M image-text pairs. Use for image search, content moderation, or vision-language tasks without fine-tuning. Best for
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
OpenAI's model connecting vision and language. Enables zero-shot image classification, image-text matching, and cross-modal retrieval. Trained on 400M image-text pairs. Use for image search, content moderation, or vision-language tasks without fine-tuning. Best for general-purpose image understanding.
How to use
Zainstaluj CLIP i wymagane zależności, uruchamiając w terminalu: pip install git+https://github.com/openai/CLIP.git, a następnie pip install torch torchvision ftfy regex tqdm. Proces może potrwać kilka minut w zależności od szybkości połączenia.
Przygotuj obraz, który chcesz analizować – zapisz go w formacie JPG lub PNG w dostępnym katalogu (np. photo.jpg w bieżącym folderze projektu).
Załaduj model CLIP w swoim skrypcie Pythona, wybierając wariant ViT-B/32 (szybki i lekki) lub inny dostępny model. Kod automatycznie użyje GPU (CUDA) jeśli jest dostępne, w przeciwnym razie CPU.
Zdefiniuj listę możliwych etykiet tekstowych, które chcesz porównać z obrazem – na przykład ["pies", "kot", "ptak", "samochód"]. Im bardziej konkretne opisy, tym lepsze wyniki.
Przetwórz obraz za pomocą funkcji preprocess, a następnie oblicz podobieństwo między cechami obrazu a cechami tekstu, korzystając z wbudowanej funkcji cosine similarity modelu.
Wyniki zawierają prawdopodobieństwa dla każdej etykiety – wybierz tę z najwyższym wynikiem jako klasyfikację obrazu. Możesz też użyć tego podejścia do wyszukiwania semantycznego, moderacji treści lub dopasowywania obrazów do opisów tekstowych.