verl-rl-training
Provides guidance for training LLMs with reinforcement learning using verl (Volcano Engine RL). Use when implementing RLHF, GRPO, PPO, or other RL algorithms for LLM post-training at scale with flexible infrastructure backends.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Provides guidance for training LLMs with reinforcement learning using verl (Volcano Engine RL). Use when implementing RLHF, GRPO, PPO, or other RL algorithms for LLM post-training at scale with flexible infrastructure backends.
How to use
Zainstaluj verl za pomocą pip, wybierając backend: pip install verl[vllm] dla vLLM lub pip install verl[sglang] dla SGLang. Alternatywnie użyj obrazu Docker: docker pull verlai/verl:vllm011.latest dla wdrożenia produkcyjnego.
Przygotuj swój model bazowy (np. Qwen-3, Llama-3.1, DeepSeek, Gemma-2) i dane treningowe zawierające prompty oraz odpowiedzi do oceny.
Wybierz algorytm uczenia wzmacniającego odpowiedni do Twojego celu: PPO dla klasycznego RLHF, GRPO dla szybszego treningu, RLOO lub REINFORCE++ dla innych wariantów, DAPO lub SPIN dla specjalistycznych zastosowań.
Skonfiguruj backend treningowy (FSDP dla rozproszenia, Megatron-LM dla dużych modeli) oraz engine rolloutów (vLLM lub SGLang dla generowania odpowiedzi podczas treningu).
Uruchom trening, dostosowując parametry takie jak liczba kroków, rozmiar batcha i współczynnik uczenia. Verl obsługuje sekwencyjny paralelizm i paralelizm ekspertów dla modeli powyżej 100B parametrów.
Monitoruj postępy treningu i waliduj model na benchmarkach. Jeśli potrzebujesz wieloturowych interakcji z narzędziami, włącz obsługę agentic workflows w konfiguracji rolloutów.