Toolverse
All skills

advanced-evaluation

by muratcankoylan

This skill should be used when the user asks to \

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
DevOps
Views
23

About this skill

This skill should be used when the user asks to \

How to use

  1. Zainstaluj skill w swoim środowisku agenta, dodając repozytorium muratcankoylan/Agent-Skills-for-Context-Engineering do dostępnych umiejętności.

  2. Aktywuj skill, gdy chcesz porównać wyniki różnych modeli lub ocenić jakość odpowiedzi LLM. Skill automatycznie rozpozna pytania o "LLM-as-judge", "porównanie wyników modeli", "rubryk ewaluacyjne" lub "ocenę bias'u".

  3. Wybierz metodę ewaluacji: dla kryteriów obiektywnych (dokładność faktów, zgodność z instrukcją) użyj direct scoring – pojedyncza ocena na zdefiniowanej skali. Dla preferencji subiektywnych (ton, styl, perswazyjność) wybierz pairwise comparison – porównanie dwóch odpowiedzi.

  4. Zdefiniuj rubryke oceny lub kryteria, które skill będzie stosować. Skill pomoże ci ustandaryzować oceny między zespołami i zmniejszyć niespójności w interpretacji skal.

  5. Uruchom ewaluację na zbiorze odpowiedzi. Skill będzie monitorować błędy pozycyjne (position bias) i długości odpowiedzi, które mogą zniekształcić wyniki.

  6. Przeanalizuj korelację między ocenami automatycznymi a ludzkimi, aby zweryfikować niezawodność systemu i dostroić parametry w razie potrzeby.

Related skills