groq-performance-tuning
Optimize Groq API performance with caching, batching, and connection pooling.\nUse when experiencing slow API responses, implementing caching strategies,\nor optimizing request throughput for Groq integrations.\nTrigger with phrases like \
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Optimize Groq API performance with caching, batching, and connection pooling.\nUse when experiencing slow API responses, implementing caching strategies,\nor optimizing request throughput for Groq integrations.\nTrigger with phrases like \
How to use
Zainstaluj skill groq-performance-tuning w swoim środowisku Claude Code, Codex lub OpenClaw. Skill jest kompatybilny z wersjami obsługującymi narzędzia Read, Write i Edit.
Wyzwól skill frazami związanymi z wydajnością Groq, takimi jak "optymalizuj groq", "groq performance", "groq latency", "groq caching", "groq slow" lub "groq speed".
Wybierz odpowiedni model na podstawie wymagań opóźnienia. Dla ścieżek krytycznych pod względem latencji użyj llama-3.1-8b-instant (około 50 ms TTFT), dla ścieżek wymagających wyższej jakości użyj llama-3.3-70b-versatile (około 150 ms TTFT), lub rozważ llama-3.3-70b-specdec dla szybszej przepustowości przy zachowaniu jakości.
Zaimplementuj cache'owanie promptów i wyników, aby uniknąć powtarzających się obliczeń. Skill zawiera przykłady kodu TypeScript pokazujące, jak strukturyzować żądania dla efektywnego cache'owania.
Włącz streaming dla długich odpowiedzi, aby zmniejszyć opóźnienie postrzegane przez użytkownika. Skill dokumentuje, jak konfigurować streaming w SDK Groq.
Rozważ paralelizację żądań, gdy przetwarzasz wiele promptów jednocześnie. Skill zawiera przykłady równoległych żądań, które maksymalizują przepustowość dostępną w Groq.