evaluate-environments
Run and analyze evaluations for verifiers environments using prime eval. Use when asked to smoke-test environments, run benchmark sweeps, resume interrupted evaluations, compare models, inspect sample-level outputs, or produce evaluation summaries suitable for deciding next
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Run and analyze evaluations for verifiers environments using prime eval. Use when asked to smoke-test environments, run benchmark sweeps, resume interrupted evaluations, compare models, inspect sample-level outputs, or produce evaluation summaries suitable for deciding next steps.
How to use
Zainstaluj skill w swoim środowisku agenta Claude/Copilot, dodając go do konfiguracji MCP server'ów.
Uruchom smoke test na wybranym środowisku, aby szybko sprawdzić jego działanie: prime eval run my-env -m gpt-4.1-mini -n 5. Parametr -n określa liczbę próbek do testowania.
Jeśli testujesz środowisko z Hub'a, użyj ścieżki owner/env-slug zamiast lokalnej nazwy: prime eval run owner/my-env -m gpt-4.1-mini -n 5.
Po pozytywnym smoke teście skaluj ewaluację do większej liczby próbek i powtórzeń: prime eval run owner/my-env -m gpt-4.1-mini -n 200 -r 3 -s. Flaga -r określa liczbę powtórzeń, -s włącza shuffle.
Dla wygody zdefiniuj aliasy endpointów w pliku configs/endpoints.toml, aby uniknąć powtarzania parametrów URL i klucza API. Następnie odwołuj się do nich przez -m endpoint_id zamiast ręcznego wpisywania -b i -k.
Wyniki ewaluacji zapisują się automatycznie w Evaluations tab i lokalnie — możesz je przeglądać, porównywać modele oraz podejmować decyzje o następnych krokach na podstawie wygenerowanych podsumowań.