D
dask
Parallel/distributed computing. Scale pandas/NumPy beyond memory, parallel DataFrames/Arrays, multi-file processing, task graphs, for larger-than-RAM datasets and parallel workflows.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Parallel/distributed computing. Scale pandas/NumPy beyond memory, parallel DataFrames/Arrays, multi-file processing, task graphs, for larger-than-RAM datasets and parallel workflows.
How to use
- Zainstaluj bibliotekę Dask w swoim środowisku Python za pomocą pip (pip install dask[dataframe]).
- Zaimportuj moduł dask.dataframe, aby pracować z danymi tabelarycznymi w formacie równoległym, analogicznie do pandas.
- Wczytaj dane z jednego lub wielu plików (CSV, Parquet, JSON) używając funkcji read_csv, read_parquet lub read_json z dask.dataframe — obsługuje wzorce glob do przetwarzania całych katalogów.
- Wykonuj operacje na danych (filtrowanie, groupby, agregacje, złączenia) tak jak w pandas — Dask automatycznie paralelizuje obliczenia na dostępnych rdzeniach.
- Dla zaawansowanych przypadków użyj map_partitions do zastosowania niestandardowych funkcji na poszczególnych partycjach danych.
- Wywołaj compute() na wyniku, aby uruchomić obliczenia i pobrać ostateczny wynik — Dask buduje graf zadań i wykonuje go efektywnie.