ray-data
Scalable data processing for ML workloads. Streaming execution across CPU/GPU, supports Parquet/CSV/JSON/images. Integrates with Ray Train, PyTorch, TensorFlow. Scales from single machine to 100s of nodes. Use for batch inference, data preprocessing, multi-modal data loading, or
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Scalable data processing for ML workloads. Streaming execution across CPU/GPU, supports Parquet/CSV/JSON/images. Integrates with Ray Train, PyTorch, TensorFlow. Scales from single machine to 100s of nodes. Use for batch inference, data preprocessing, multi-modal data loading, or distributed ETL pipelines.
How to use
Zainstaluj Ray Data poleceniem
pip install -U 'ray[data]'wraz z wymaganymi zależnościami (pyarrow, pandas).Załaduj dane z magazynu — użyj
ray.data.read_parquet()do wczytania plików Parquet z lokalnego dysku lub S3, lub wybierz inny format (CSV, JSON) w zależności od Twoich danych.Zdefiniuj transformacje danych za pomocą
map_batches()— przekaż funkcję, która przetworzy partie danych, np. konwersję tekstu na małe litery lub normalizację obrazów. Ray wykonuje transformacje leniwie, bez ładowania całego zbioru do pamięci.Iteruj po przetworzonych danych poleceniem
iter_batches()z wybranym rozmiarem partii — każda iteracja zwraca gotową do użycia partię danych.Aby skalować na wiele maszyn, połącz Ray Data z Ray Train — utwórz dataset, skonfiguruj
ScalingConfigz liczbą węzłów i GPU, a następnie przekaż dataset doTorchTrainerlub innego trenera Ray Train.Monitoruj przetwarzanie — Ray automatycznie zarządza dystrybucją pracy między dostępne zasoby (CPU, GPU) i węzły klastra.