agentic-eval
Patterns and techniques for evaluating and improving AI agent outputs. Use this skill when:\n- Implementing self-critique and reflection loops\n- Building evaluator-optimizer pipelines for quality-critical generation\n- Creating test-driven code refinement workflows\n- Designing
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Patterns and techniques for evaluating and improving AI agent outputs. Use this skill when:\n- Implementing self-critique and reflection loops\n- Building evaluator-optimizer pipelines for quality-critical generation\n- Creating test-driven code refinement workflows\n- Designing rubric-based or LLM-as-judge evaluation systems\n- Adding iterative improvement to agent outputs (code, reports, analysis)\n- Measuring and improving agent response quality
How to use
Zainstaluj umiejętność w swoim środowisku agenta, importując moduł agentic-eval z repozytorium GitHub.
Zdefiniuj kryteria oceny dla Twojego zadania — lista konkretnych warunków, które output musi spełnić (np. "kod musi być wolny od błędów składniowych", "raport musi zawierać streszczenie").
Skonfiguruj pętlę refleksji, przekazując zadanie, listę kryteriów i maksymalną liczbę iteracji (zazwyczaj 2-3). Agent najpierw wygeneruje output, następnie go oceni.
W każdej iteracji agent porównuje swój output z kryteriami, otrzymując feedback w formacie PASS/FAIL dla każdego warunku. Jeśli wszystkie kryteria są spełnione, proces kończy się.
Jeśli kryteria nie są spełnione, agent analizuje feedback i automatycznie refaktoryzuje output, uwzględniając wskazane braki.
Powtarzaj kroki 4-5 aż do osiągnięcia pełnej zgodności z kryteriami lub wyczerpania maksymalnej liczby iteracji. Zwróć ostateczny, ulepszony output.