slime-rl-training
Provides guidance for LLM post-training with RL using slime, a Megatron+SGLang framework. Use when training GLM models, implementing custom data generation workflows, or needing tight Megatron-LM integration for RL scaling.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Provides guidance for LLM post-training with RL using slime, a Megatron+SGLang framework. Use when training GLM models, implementing custom data generation workflows, or needing tight Megatron-LM integration for RL scaling.
How to use
Zainstaluj wymagane zależności: sglang-router w wersji 0.2.3 lub wyższej, ray, torch w wersji 2.0.0 lub wyższej oraz transformers w wersji 4.40.0 lub wyższej. Upewnij się, że masz dostęp do repozytorium davila7 na GitHubie.
Sklonuj lub pobierz skill z folderu post-training-slime z repozytorium claude-code-templates. Umieść go w strukturze katalogów zgodnie z konwencją ai-research skills.
Przygotuj swoje dane treningowe i skonfiguruj buffer danych. Slime oferuje elastyczne zarządzanie promptami i przechowywanie próbek — zdefiniuj niestandardowy workflow generowania danych zgodnie z potrzebami Twojego modelu.
Skonfiguruj parametry treningu dla wybranego modelu (GLM-4.x, Qwen3, DeepSeek V3 lub Llama 3). Określ typ równoległa obliczeń: tensor parallelism (TP), pipeline parallelism (PP), data parallelism (DP) lub sequence parallelism (SP).
Uruchom trening za pomocą Megatron-LM z integracją SGLang do generowania rolloutów. Slime automatycznie koordynuje trenowanie z wysokowydajnym generowaniem poprzez router SGLang.
Monitoruj przebieg treningu i dostosuj parametry data buffer'a w razie potrzeby. Po zakończeniu treningu model jest gotowy do ewaluacji i wdrożenia.