Toolverse
All skills

debug-distributed

by inclusionAI

Guide for debugging distributed training issues in AReaL. Use when user encounters hangs, wrong results, OOM, or communication errors.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Backend
Views
2

About this skill

Guide for debugging distributed training issues in AReaL. Use when user encounters hangs, wrong results, OOM, or communication errors.

How to use

  1. Uruchom umiejętność, gdy napotkasz problemy w trenowaniu rozproszonym — zawieszenia, różne wyniki na węzłach, błędy OOM lub problemy komunikacyjne NCCL. 2. Zastosuj zasadę minimalnej reprodukcji: utwórz najmniejszy skrypt testowy, który odtwarza problem, usuwając niepowiązane komponenty modelu, zmniejszając rozmiary tensorów i redukując liczbę GPU do minimum (np. 2 urządzenia). 3. Włącz szczegółowe logowanie poprzez zmienne środowiskowe: ustaw TORCH_DISTRIBUTED_DEBUG=DETAIL, NCCL_DEBUG=INFO i NCCL_DEBUG_SUBSYS=ALL, aby uzyskać pełne informacje diagnostyczne. 4. Jeśli proces się zawiesza, użyj py-spy do zrzutu stosu wywołań — znajdź identyfikator procesu poleceniem ps aux, a następnie wykonaj py-spy dump --pid [PID] lub py-spy record -o profile.svg --pid [PID] --duration 30 dla analizy wydajności. 5. Sprawdź typowe przyczyny: niezgodne kolektywne operacje (jeden węzeł wywołuje all_reduce, inny nie), błędne grupy procesów, lub konflikty w torch.compile — porównaj kod na wszystkich węzłach, aby upewnić się, że wszystkie procesy wykonują identyczne operacje rozproszone.

Related skills