Toolverse
All skills

slime-rl-training

by davila7

Provides guidance for LLM post-training with RL using slime, a Megatron+SGLang framework. Use when training GLM models, implementing custom data generation workflows, or needing tight Megatron-LM integration for RL scaling.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security

About this skill

Provides guidance for LLM post-training with RL using slime, a Megatron+SGLang framework. Use when training GLM models, implementing custom data generation workflows, or needing tight Megatron-LM integration for RL scaling.

How to use

  1. Zainstaluj wymagane zależności: sglang-router w wersji 0.2.3 lub wyższej, ray, torch w wersji 2.0.0 lub wyższej oraz transformers w wersji 4.40.0 lub wyższej. Upewnij się, że masz dostęp do repozytorium davila7 na GitHubie.

  2. Sklonuj lub pobierz skill z folderu post-training-slime z repozytorium claude-code-templates. Umieść go w strukturze katalogów zgodnie z konwencją ai-research skills.

  3. Przygotuj swoje dane treningowe i skonfiguruj buffer danych. Slime oferuje elastyczne zarządzanie promptami i przechowywanie próbek — zdefiniuj niestandardowy workflow generowania danych zgodnie z potrzebami Twojego modelu.

  4. Skonfiguruj parametry treningu dla wybranego modelu (GLM-4.x, Qwen3, DeepSeek V3 lub Llama 3). Określ typ równoległa obliczeń: tensor parallelism (TP), pipeline parallelism (PP), data parallelism (DP) lub sequence parallelism (SP).

  5. Uruchom trening za pomocą Megatron-LM z integracją SGLang do generowania rolloutów. Slime automatycznie koordynuje trenowanie z wysokowydajnym generowaniem poprzez router SGLang.

  6. Monitoruj przebieg treningu i dostosuj parametry data buffer'a w razie potrzeby. Po zakończeniu treningu model jest gotowy do ewaluacji i wdrożenia.

Related skills