embedding-strategies

Name: embedding-strategies
Author: wshobson

Select and optimize embedding models for semantic search and RAG applications. Use when choosing embedding models, implementing chunking strategies, or optimizing embedding quality for specific domains.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: wshobson
Category: Data Science
Views: 84

GitHub repo

About this skill

How to use

Zidentyfikuj swój przypadek użycia: określ, czy potrzebujesz wysokiej dokładności (text-embedding-3-large), niskich kosztów (text-embedding-3-small), obsługi kodu i dokumentów prawnych (voyage-2), rozwiązania open-source (bge-large-en-v1.5) czy lekkiego modelu (all-MiniLM-L6-v2). Jeśli pracujesz z treścią wielojęzyczną, wybierz multilingual-e5-large.
Przygotuj dokumenty do embeddingu, dzieląc je na fragmenty (chunking). Ustal rozmiar fragmentu i stopień ich nakładania się w zależności od długości dokumentów i wymagań aplikacji. Skill zawiera wytyczne dotyczące optymalnych rozmiarów dla różnych typów treści.
Oczyszcz i znormalizuj tekst przed embeddingiem — usuń zbędne znaki, znormalizuj białe znaki i przygotuj dane w formacie akceptowanym przez wybrany model.
Użyj szablonu OpenAI Embeddings do generowania wektorów: załaduj bibliotekę OpenAI, zdefiniuj funkcję get_embeddings() z obsługą batching (przetwarzanie po 100 tekstów naraz) i wybierz model oraz opcjonalnie wymiar wyjściowy.
Porównaj wydajność modeli na twoim zbiorze danych — oceń dokładność wyszukiwania, czas przetwarzania i koszty dla każdego kandydata, aby wybrać najlepszy kompromis dla twojej aplikacji.

Related skills

arxiv-search

by langchain-ai

Search arXiv preprint repository for papers in physics, mathematics, computer science, quantitative biology, and related fields

Data Science

76172

pdf-processing

by Ming-Kai-LC

Comprehensive PDF processing techniques for handling large files that exceed Claude Code's reading limits, including chunking strategies, text/table extraction, and OCR for scanned documents. Use when working with PDFs larger than 10-15MB or more than 30-50 pages.

Data Science

23134

codex

by Lucklyric

Invoke Codex CLI for complex coding tasks requiring high reasoning capabilities. This skill should be invoked when users explicitly mention \

Data Science

16163

notebooklm

by leegonzales

Query Google NotebookLM for source-grounded, citation-backed answers from uploaded documents. Reduces hallucinations through Gemini's document-only responses. Browser automation with library management and persistent authentication.

Data Science

142112

ml-paper-writing

by davila7

Write publication-ready ML/AI papers for NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Use when drafting papers from research repos, structuring arguments, verifying citations, or preparing camera-ready submissions. Includes LaTeX templates, reviewer guidelines, and citation

Data Science

2681

threejs

by mrgoonie

Build 3D web apps with Three.js (WebGL/WebGPU). Use for 3D scenes, animations, custom shaders, PBR materials, VR/XR experiences, games, data visualizations, product configurators.

Data Science

1743