T
torchforge-rl-training
Provides guidance for PyTorch-native agentic RL using torchforge, Meta's library separating infra from algorithms. Use when you want clean RL abstractions, easy algorithm experimentation, or scalable training with Monarch and TorchTitan.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Provides guidance for PyTorch-native agentic RL using torchforge, Meta's library separating infra from algorithms. Use when you want clean RL abstractions, easy algorithm experimentation, or scalable training with Monarch and TorchTitan.
How to use
- Zainstaluj zależności: upewnij się, że masz PyTorch ≥2.9.0, TorchTitan ≥0.2.0, vLLM i Monarch dostępne w swoim środowisku. 2. Zdefiniuj swoją funkcję straty i model nagrody — torchforge dostarcza wbudowane implementacje GRPO, DAPO, CISPO, GSPO i SAPO, które możesz użyć bezpośrednio lub dostosować. 3. Napisz kod algorytmu w warstwie aplikacji (Your Code) — torchforge obsługuje infrastrukturę, ty skupiasz się na logice RL. Algorytm może być zaimplementowany w około 100 linii kodu. 4. Skonfiguruj skalowanie: jeśli trenujesz na jednej karcie, uruchom bezpośrednio; dla wielu GPU użyj Monarch do automatycznego zarządzania aktorami i TorchTitan do paralelizmu modelu. 5. Monitoruj trening — torchforge automatycznie synchronizuje wagi między węzłami za pośrednictwem TorchStore, a vLLM obsługuje wnioskowanie. Nie musisz ręcznie zarządzać komunikacją między procesami.