Toolverse
All skills

embedding-strategies

by wshobson

Select and optimize embedding models for semantic search and RAG applications. Use when choosing embedding models, implementing chunking strategies, or optimizing embedding quality for specific domains.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
wshobson
Category
Data Science
Views
84

About this skill

Select and optimize embedding models for semantic search and RAG applications. Use when choosing embedding models, implementing chunking strategies, or optimizing embedding quality for specific domains.

How to use

  1. Zidentyfikuj swój przypadek użycia: określ, czy potrzebujesz wysokiej dokładności (text-embedding-3-large), niskich kosztów (text-embedding-3-small), obsługi kodu i dokumentów prawnych (voyage-2), rozwiązania open-source (bge-large-en-v1.5) czy lekkiego modelu (all-MiniLM-L6-v2). Jeśli pracujesz z treścią wielojęzyczną, wybierz multilingual-e5-large.

  2. Przygotuj dokumenty do embeddingu, dzieląc je na fragmenty (chunking). Ustal rozmiar fragmentu i stopień ich nakładania się w zależności od długości dokumentów i wymagań aplikacji. Skill zawiera wytyczne dotyczące optymalnych rozmiarów dla różnych typów treści.

  3. Oczyszcz i znormalizuj tekst przed embeddingiem — usuń zbędne znaki, znormalizuj białe znaki i przygotuj dane w formacie akceptowanym przez wybrany model.

  4. Użyj szablonu OpenAI Embeddings do generowania wektorów: załaduj bibliotekę OpenAI, zdefiniuj funkcję get_embeddings() z obsługą batching (przetwarzanie po 100 tekstów naraz) i wybierz model oraz opcjonalnie wymiar wyjściowy.

  5. Porównaj wydajność modeli na twoim zbiorze danych — oceń dokładność wyszukiwania, czas przetwarzania i koszty dla każdego kandydata, aby wybrać najlepszy kompromis dla twojej aplikacji.

Related skills