E
eval-harness
Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles
How to use
- Aktywuj skill eval-harness w sesji Claude Code – narzędzie będzie dostępne do czytania, pisania i edycji plików oraz uruchamiania poleceń bash. 2. Zdefiniuj capability eval przed implementacją: utwórz blok markdown [CAPABILITY EVAL: nazwa-funkcji] z opisem zadania, listą kryteriów sukcesu (checklistą) i oczekiwanym wynikiem. 3. Dla każdego eval'u wybierz typ gradera: code-based (bash, grep, npm test) do sprawdzania deterministycznych warunków, lub model-based (Claude) do oceny wyników otwartych. Wpisz polecenia bash lub prompt ewaluacyjny. 4. Uruchamiaj evals ciągle podczas rozwoju – po każdej zmianie kodu sprawdź, czy capability evals przechodzą i czy regression evals nie spadły poniżej poprzedniego wyniku. 5. Śledź wyniki w formacie X/Y passed – jeśli regresja się pojawi, natychmiast ją napraw zamiast iść dalej. 6. Używaj pass@k metrics do pomiaru niezawodności agenta: jeśli eval przechodzi w 8 na 10 prób, oznacza to pass@10 = 0.8 – im wyższy wskaźnik, tym bardziej niezawodny agent.