Toolverse
All skills

evaluation

by muratcankoylan

This skill should be used when the user asks to \

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Testing
Views
27

About this skill

This skill should be used when the user asks to \

How to use

  1. Aktywuj skill gdy potrzebujesz testować wydajność agenta, walidować wybory w inżynierii kontekstu lub mierzyć poprawy w czasie. Skill jest przeznaczony dla scenariuszy, gdzie agent podejmuje dynamiczne decyzje i może znaleźć alternatywne ścieżki do celu.
  2. Zdefiniuj wymiary oceny dla Twojego agenta — typowe to: dokładność faktyczna, kompletność odpowiedzi, jakość źródeł, dokładność cytowań i efektywność użytych narzędzi. Każdy wymiar powinien mieć jasne kryteria.
  3. Skonfiguruj rubryką ewaluacji, która uwzględnia, że agent może osiągnąć cel różnymi drogami — oceniaj wynik i rozsądność procesu, nie szukaj jednej "słusznej" odpowiedzi.
  4. Wdrażaj ewaluację przez LLM-as-judge do skalowania testów, ale uzupełniaj ją ręczną weryfikacją dla przypadków brzegowych i walidacji krytycznych decyzji.
  5. Uruchamiaj ewaluację regularnie przed wdrożeniami, aby wychwycić regresje i porównać różne konfiguracje agenta. Zbieraj metryki w czasie, aby śledzić trend poprawy.
  6. Używaj wyników do budowania quality gates — ustaw progi akceptacji dla każdego wymiaru i blokuj wdrożenia, które ich nie spełniają.

Related skills