T
train-with-environments
Train models with verifiers environments using hosted RL or prime-rl. Use when asked to configure RL runs, tune key hyperparameters, diagnose instability, set up difficulty filtering and oversampling, or create practical train and eval loops for new environments.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Train models with verifiers environments using hosted RL or prime-rl. Use when asked to configure RL runs, tune key hyperparameters, diagnose instability, set up difficulty filtering and oversampling, or create practical train and eval loops for new environments.
How to use
- Zainstaluj środowisko, które chcesz trenować, używając polecenia prime env install [nazwa-środowiska]. 2. Przed rozpoczęciem długiego treningu uruchom ewaluację kanoniczną, aby zweryfikować zachowanie środowiska: prime eval run [nazwa-środowiska] -m gpt-4.1-mini -n 20 -r 3 -s. Sprawdź, czy istnieje różnorodność nagród na poziomie bazowym. 3. Wybierz ścieżkę treningu: dla większości użytkowników zacznij od Hosted Training (prime lab setup), dla zaawansowanych użytkowników z dostępem do GPU rozważ prime-rl (prime lab setup --prime-rl). 4. Skonfiguruj aliasy endpointów w pliku configs/endpoints.toml — dla testów zachowania wybierz modele instruct (seria gpt-4.1, qwen3 instruct), dla zadań wymagających głębokich rozumowań wybierz modele reasoning (seria gpt-5, qwen3 thinking). 5. Uruchom trening z konserwatywną długością przebiegu i przeanalizuj próbki na wczesnym etapie, aby zdiagnozować ewentualną niestabilność lub problemy z hiperparametrami. 6. Przed uruchomieniem długich przebiegów treningowych opublikuj środowisko, aby upewnić się, że jest gotowe do produkcji.