Toolverse
All skills

runtime-skills

by llama-farm

Universal Runtime best practices for PyTorch inference, Transformers models, and FastAPI serving. Covers device management, model loading, memory optimization, and performance tuning.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Data Science
Views
1

About this skill

Universal Runtime best practices for PyTorch inference, Transformers models, and FastAPI serving. Covers device management, model loading, memory optimization, and performance tuning.

How to use

  1. Zainstaluj Universal Runtime z repozytorium LlamaFarm — wymaga Python 3.11+, PyTorch, Transformers, FastAPI i llama-cpp-python. Skill znajduje się w katalogu .claude/skills/runtime-skills.

  2. Zapoznaj się z checklist'ami w kolejności priorytetów: najpierw przejrzyj shared Python skills (error-handling i security mają priorytet wysoki), następnie runtime-specific pliki: pytorch.md dla zarządzania urządzeniami i czyszczenia pamięci, transformers.md dla ładowania modeli i tokenizacji, fastapi.md dla designu API i streamingu.

  3. Podczas implementacji serwera wnioskowania stosuj wzorce z pytorch.md — zwróć uwagę na device management (GPU vs CPU), dtype consistency i memory cleanup po inferencji.

  4. Dla modeli Transformers (GPT, Llama, Mistral, BERT itp.) użyj checklist z transformers.md — obejmuje prawidłowe ładowanie, tokenizację i konfigurację inferencji.

  5. Przy budowaniu FastAPI endpoints'ów (text generation, embeddings, classification) stosuj wytyczne z fastapi.md — zwłaszcza dla streaming'u i lifecycle management.

  6. Zoptymalizuj wydajność poprzez batching, caching i inne techniki opisane w performance.md — skill zawiera konkretne wzorce dla każdej strategii.

Related skills