evals
Agent evaluation framework based on Anthropic's best practices. USE WHEN eval, evaluate, test agent, benchmark, verify behavior, regression test, capability test. Includes three grader types (code-based, model-based, human), transcript capture, pass@k/pass^k metrics, and
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Agent evaluation framework based on Anthropic's best practices. USE WHEN eval, evaluate, test agent, benchmark, verify behavior, regression test, capability test. Includes three grader types (code-based, model-based, human), transcript capture, pass@k/pass^k metrics, and ALGORITHM integration.
How to use
Sprawdź dostępne dostosowania w katalogu ~/.claude/skills/PAI/USER/SKILLCUSTOMIZATIONS/Evals/. Jeśli katalog istnieje, załaduj plik PREFERENCES.md i wszelkie konfiguracje, które tam się znajdują — będą one zastępować domyślne ustawienia.
Aktywuj skill, używając jednej z poleceń: "uruchom evals", "testuj tego agenta", "oceń", "sprawdź jakość" lub "benchmark". Możesz także użyć "test regresji" lub "test możliwości".
Przygotuj transkrypt lub zapis wieloturowej rozmowy agenta, którą chcesz ocenić. Framework będzie analizować wywołania narzędzi i sekwencję interakcji.
Wybierz typ oceniającego odpowiedni do Twoich potrzeb: oceniający oparty na kodzie (automatyczne reguły), oparty na modelu (ocena przez AI) lub człowieka (ręczna weryfikacja).
Uruchom ocenę i przeanalizuj wyniki. Narzędzie wygeneruje metryki pass@k i pass^k, które pokażą wydajność agenta na poszczególnych zadaniach.
Jeśli znaleźliście problemy, możesz utworzyć nowe zadania oceny na podstawie niepowodzeń i powtórzyć proces walidacji przed wdrożeniem agenta.