Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
This skill should be used when the user asks to \
How to use
Zainstaluj skill w swoim środowisku agenta, dodając repozytorium muratcankoylan/Agent-Skills-for-Context-Engineering do dostępnych umiejętności.
Aktywuj skill, gdy chcesz porównać wyniki różnych modeli lub ocenić jakość odpowiedzi LLM. Skill automatycznie rozpozna pytania o "LLM-as-judge", "porównanie wyników modeli", "rubryk ewaluacyjne" lub "ocenę bias'u".
Wybierz metodę ewaluacji: dla kryteriów obiektywnych (dokładność faktów, zgodność z instrukcją) użyj direct scoring – pojedyncza ocena na zdefiniowanej skali. Dla preferencji subiektywnych (ton, styl, perswazyjność) wybierz pairwise comparison – porównanie dwóch odpowiedzi.
Zdefiniuj rubryke oceny lub kryteria, które skill będzie stosować. Skill pomoże ci ustandaryzować oceny między zespołami i zmniejszyć niespójności w interpretacji skal.
Uruchom ewaluację na zbiorze odpowiedzi. Skill będzie monitorować błędy pozycyjne (position bias) i długości odpowiedzi, które mogą zniekształcić wyniki.
Przeanalizuj korelację między ocenami automatycznymi a ludzkimi, aby zweryfikować niezawodność systemu i dostroić parametry w razie potrzeby.