runtime-skills
Universal Runtime best practices for PyTorch inference, Transformers models, and FastAPI serving. Covers device management, model loading, memory optimization, and performance tuning.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Universal Runtime best practices for PyTorch inference, Transformers models, and FastAPI serving. Covers device management, model loading, memory optimization, and performance tuning.
How to use
Zainstaluj Universal Runtime z repozytorium LlamaFarm — wymaga Python 3.11+, PyTorch, Transformers, FastAPI i llama-cpp-python. Skill znajduje się w katalogu
.claude/skills/runtime-skills.Zapoznaj się z checklist'ami w kolejności priorytetów: najpierw przejrzyj shared Python skills (error-handling i security mają priorytet wysoki), następnie runtime-specific pliki: pytorch.md dla zarządzania urządzeniami i czyszczenia pamięci, transformers.md dla ładowania modeli i tokenizacji, fastapi.md dla designu API i streamingu.
Podczas implementacji serwera wnioskowania stosuj wzorce z pytorch.md — zwróć uwagę na device management (GPU vs CPU), dtype consistency i memory cleanup po inferencji.
Dla modeli Transformers (GPT, Llama, Mistral, BERT itp.) użyj checklist z transformers.md — obejmuje prawidłowe ładowanie, tokenizację i konfigurację inferencji.
Przy budowaniu FastAPI endpoints'ów (text generation, embeddings, classification) stosuj wytyczne z fastapi.md — zwłaszcza dla streaming'u i lifecycle management.
Zoptymalizuj wydajność poprzez batching, caching i inne techniki opisane w performance.md — skill zawiera konkretne wzorce dla każdej strategii.