M
miles-rl-training
Provides guidance for enterprise-grade RL training using miles, a production-ready fork of slime. Use when training large MoE models with FP8/INT4, needing train-inference alignment, or requiring speculative RL for maximum throughput.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Provides guidance for enterprise-grade RL training using miles, a production-ready fork of slime. Use when training large MoE models with FP8/INT4, needing train-inference alignment, or requiring speculative RL for maximum throughput.
How to use
- Zainstaluj miles za pomocą Dockera (zalecane) lub pip, upewniając się, że masz zainstalowane zależności: sglang ≥0.2.3, ray, torch ≥2.0.0 i transformers ≥4.40.0. 2. Przygotuj swój model MoE (np. DeepSeek V3 lub Qwen3-MoE) i dataset do treningu reinforcement learning. 3. Skonfiguruj parametry treningu, wybierając tryb precyzji: Unified FP8 dla pełnego end-to-end FP8, INT4 QAT dla modeli 1TB+ na pojedynczej maszynie, lub R3 (Rollout Routing Replay) dla wyrównania ekspertów w architekturze MoE. 4. Włącz Speculative RL z online SFT draft modelami, aby uzyskać przyspieszenie rolloutów o 25%+, oraz Zero-Copy Weight Sync dla optymalizacji synchronizacji wag przez CUDA IPC. 5. Uruchom trening, korzystając z optymalizacji na poziomie kernela (FlashAttention-3, DeepGEMM) i technik TIS/MIS do korekcji off-policy. 6. Monitoruj wyrównanie train-inference i stabilność treningu — miles zapewnia bit-wise identyczne rezultaty między fazą treningu a inferencji.