agent-evaluation
Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent reliability, test agent.
How to use
Zainstaluj umiejętność z repozytorium davila7 (claude-code-templates). Skill wymaga podstawowej wiedzy o testowaniu i fundamentach modeli językowych.
Zdefiniuj testy behawioralne dla swojego agenta — określ niezmienniki behawioralne, które agent powinien spełniać niezależnie od wariacji wejścia. Unikaj testów tylko ścieżki szczęśliwej; dodaj przypadki brzegowe i scenariusze awarii.
Uruchom testy wielokrotnie i analizuj rozkład wyników. Pojedynczy przebieg nie wystarczy — LLM agenty mogą dać różne odpowiedzi na to samo wejście. Zbierz statystyki z wielu uruchomień.
Przeprowadź testy adversarialne — aktywnie próbuj złamać zachowanie agenta. Nie polegaj na dopasowaniu stringów wyjścia; zamiast tego oceniaj semantykę i spełnienie zadania.
Monitoruj metryki niezawodności w produkcji. Zwróć uwagę na agenty, które dobrze wypadają na benchmarkach, ale zawodzą w rzeczywistych scenariuszach — to wskazuje na niedopasowanie między ewaluacją a rzeczywistym użyciem.
Unikaj przeciekania danych testowych do treningu lub promptów agenta. Oddziel dane ewaluacyjne od danych treningowych, aby uniknąć fałszywych pozytywnych wyników.