Toolverse
All skills

dask

by davila7

Parallel/distributed computing. Scale pandas/NumPy beyond memory, parallel DataFrames/Arrays, multi-file processing, task graphs, for larger-than-RAM datasets and parallel workflows.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Data Science
Views
5

About this skill

Parallel/distributed computing. Scale pandas/NumPy beyond memory, parallel DataFrames/Arrays, multi-file processing, task graphs, for larger-than-RAM datasets and parallel workflows.

How to use

  1. Zainstaluj bibliotekę Dask w swoim środowisku Python za pomocą pip (pip install dask[dataframe]).
  2. Zaimportuj moduł dask.dataframe, aby pracować z danymi tabelarycznymi w formacie równoległym, analogicznie do pandas.
  3. Wczytaj dane z jednego lub wielu plików (CSV, Parquet, JSON) używając funkcji read_csv, read_parquet lub read_json z dask.dataframe — obsługuje wzorce glob do przetwarzania całych katalogów.
  4. Wykonuj operacje na danych (filtrowanie, groupby, agregacje, złączenia) tak jak w pandas — Dask automatycznie paralelizuje obliczenia na dostępnych rdzeniach.
  5. Dla zaawansowanych przypadków użyj map_partitions do zastosowania niestandardowych funkcji na poszczególnych partycjach danych.
  6. Wywołaj compute() na wyniku, aby uruchomić obliczenia i pobrać ostateczny wynik — Dask buduje graf zadań i wykonuje go efektywnie.

Related skills