Toolverse
All skills

evals

by danielmiessler

Agent evaluation framework based on Anthropic's best practices. USE WHEN eval, evaluate, test agent, benchmark, verify behavior, regression test, capability test. Includes three grader types (code-based, model-based, human), transcript capture, pass@k/pass^k metrics, and

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Testing

About this skill

Agent evaluation framework based on Anthropic's best practices. USE WHEN eval, evaluate, test agent, benchmark, verify behavior, regression test, capability test. Includes three grader types (code-based, model-based, human), transcript capture, pass@k/pass^k metrics, and ALGORITHM integration.

How to use

  1. Sprawdź dostępne dostosowania w katalogu ~/.claude/skills/PAI/USER/SKILLCUSTOMIZATIONS/Evals/. Jeśli katalog istnieje, załaduj plik PREFERENCES.md i wszelkie konfiguracje, które tam się znajdują — będą one zastępować domyślne ustawienia.

  2. Aktywuj skill, używając jednej z poleceń: "uruchom evals", "testuj tego agenta", "oceń", "sprawdź jakość" lub "benchmark". Możesz także użyć "test regresji" lub "test możliwości".

  3. Przygotuj transkrypt lub zapis wieloturowej rozmowy agenta, którą chcesz ocenić. Framework będzie analizować wywołania narzędzi i sekwencję interakcji.

  4. Wybierz typ oceniającego odpowiedni do Twoich potrzeb: oceniający oparty na kodzie (automatyczne reguły), oparty na modelu (ocena przez AI) lub człowieka (ręczna weryfikacja).

  5. Uruchom ocenę i przeanalizuj wyniki. Narzędzie wygeneruje metryki pass@k i pass^k, które pokażą wydajność agenta na poszczególnych zadaniach.

  6. Jeśli znaleźliście problemy, możesz utworzyć nowe zadania oceny na podstawie niepowodzeń i powtórzyć proces walidacji przed wdrożeniem agenta.

Related skills