prompt-caching
Caching strategies for LLM prompts including Anthropic prompt caching, response caching, and CAG (Cache Augmented Generation) Use when: prompt caching, cache prompt, response cache, cag, cache augmented.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Caching strategies for LLM prompts including Anthropic prompt caching, response caching, and CAG (Cache Augmented Generation) Use when: prompt caching, cache prompt, response cache, cag, cache augmented.
How to use
Zainstaluj umiejętność prompt-caching z repozytorium davila7. Skill zawiera trzy główne strategie cachowania dostosowane do różnych przypadków użycia.
Wybierz poziom cachowania w zależności od Twojego scenariusza. Dla powtarzających się prefiksów promptów użyj natywnego cachowania Anthropica Claude'a. Dla identycznych lub podobnych zapytań zastosuj cachowanie pełnych odpowiedzi. Dla dużych dokumentów, które chcesz wielokrotnie wykorzystywać, wdrażaj Cache Augmented Generation zamiast tradycyjnego RAG.
Strukturuj swoje prompty z myślą o cachowaniu. Umieszczaj stałe instrukcje systemowe i kontekst na początku, aby maksymalnie wykorzystać cachowanie prefiksów. Pamiętaj, że zmiana nawet małej części prefiksu unieważnia cache.
Implementuj właściwą inwaliację cache'a. Monitoruj, kiedy cached odpowiedzi stają się nieaktualne, i usuwaj je z cache'a. Unikaj sytuacji, w której stare dane są serwowane jako aktualne.
Optymalizuj dla cache misses, nie tylko dla trafień. Przygotuj się na opóźnienia, gdy prompt nie trafi do cache'a — dodatkowy narzut jest znaczący. Projektuj system tak, aby graceful degradation działał nawet bez cache'a.
Unikaj cachowania przy wysokiej temperaturze i nie cachuj wszystkiego bez sensu. Cachowanie ma sens dla deterministycznych odpowiedzi i powtarzających się wzorców. Dla kreatywnych, zmiennych odpowiedzi cachowanie może być kontrproduktywne.