ray-train
Distributed training orchestration across clusters. Scales PyTorch/TensorFlow/HuggingFace from laptop to 1000s of nodes. Built-in hyperparameter tuning with Ray Tune, fault tolerance, elastic scaling. Use when training massive models across multiple machines or running
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Distributed training orchestration across clusters. Scales PyTorch/TensorFlow/HuggingFace from laptop to 1000s of nodes. Built-in hyperparameter tuning with Ray Tune, fault tolerance, elastic scaling. Use when training massive models across multiple machines or running distributed hyperparameter sweeps.
How to use
Zainstaluj Ray Train za pomocą pip install -U "ray[train]". Upewnij się, że masz zainstalowane PyTorch (torch) i bibliotekę transformers, jeśli planujesz pracę z modelami HuggingFace.
Zdefiniuj funkcję treningową, która zawiera Twoją normalną pętlę treningową PyTorch. Wewnątrz funkcji użyj train.torch.prepare_model() aby przygotować model do pracy rozproszonej — Ray automatycznie obsługuje przydzielanie urządzeń GPU.
W pętli treningowej dodaj train.report() aby raportować metryki takie jak loss czy dokładność. Ray zbiera te metryki automatycznie ze wszystkich węzłów.
Utwórz instancję TorchTrainer, przekazując funkcję treningową i ScalingConfig z liczbą pracowników (num_workers) oraz flagą use_gpu=True jeśli chcesz używać GPU. Na przykład num_workers=4 oznacza trening na 4 GPU.
Uruchom trening wywołując trainer.fit(). Ray obsługuje koordynację rozproszoną, alokację zasobów, checkpointowanie i tolerancję na błędy — Ty skupiasz się tylko na logice treningowej.
Pobierz wyniki z obiektu zwróconego przez fit(), który zawiera finalne metryki i wytrenowany model. Możesz sprawdzić result.metrics aby zobaczyć ostateczne wartości loss i inne metryki.