miles-rl-training

Name: miles-rl-training
Author: davila7

Provides guidance for enterprise-grade RL training using miles, a production-ready fork of slime. Use when training large MoE models with FP8/INT4, needing train-inference alignment, or requiring speculative RL for maximum throughput.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: davila7
Category: Security

GitHub repo

About this skill

How to use

Zainstaluj miles za pomocą Dockera (zalecane) lub pip, upewniając się, że masz zainstalowane zależności: sglang ≥0.2.3, ray, torch ≥2.0.0 i transformers ≥4.40.0. 2. Przygotuj swój model MoE (np. DeepSeek V3 lub Qwen3-MoE) i dataset do treningu reinforcement learning. 3. Skonfiguruj parametry treningu, wybierając tryb precyzji: Unified FP8 dla pełnego end-to-end FP8, INT4 QAT dla modeli 1TB+ na pojedynczej maszynie, lub R3 (Rollout Routing Replay) dla wyrównania ekspertów w architekturze MoE. 4. Włącz Speculative RL z online SFT draft modelami, aby uzyskać przyspieszenie rolloutów o 25%+, oraz Zero-Copy Weight Sync dla optymalizacji synchronizacji wag przez CUDA IPC. 5. Uruchom trening, korzystając z optymalizacji na poziomie kernela (FlashAttention-3, DeepGEMM) i technik TIS/MIS do korekcji off-policy. 6. Monitoruj wyrównanie train-inference i stabilność treningu — miles zapewnia bit-wise identyczne rezultaty między fazą treningu a inferencji.

Related skills

better-auth-best-practices

by novuhq

Skill for integrating Better Auth - the comprehensive TypeScript authentication framework.

Security

1148

accessibility-compliance

by wshobson

Implement WCAG 2.2 compliant interfaces with mobile accessibility, inclusive design patterns, and assistive technology support. Use when auditing accessibility, implementing ARIA patterns, building for screen readers, or ensuring inclusive user experiences.

Security

2173

obsidian

by gapmiss

Comprehensive guidelines for Obsidian.md plugin development including all 27 ESLint rules, TypeScript best practices, memory management, API usage (requestUrl vs fetch), UI/UX standards, and submission requirements. Use when working with Obsidian plugins, main.ts files,

Security

14111

reviewing-code

by CaptainCrouton89

Systematically evaluate code changes for security, correctness, performance, and spec alignment. Use when reviewing PRs, assessing code quality, or verifying implementation against requirements.

Security

1493

solidity-security

by wshobson

Master smart contract security best practices to prevent common vulnerabilities and implement secure Solidity patterns. Use when writing smart contracts, auditing existing contracts, or implementing security measures for blockchain applications.

Security

10105

windows-ui-automation

by martinholovsky

Security

10115