vaex
Use this skill for processing and analyzing large tabular datasets (billions of rows) that exceed available RAM. Vaex excels at out-of-core DataFrame operations, lazy evaluation, fast aggregations, efficient visualization of big data, and machine learning on large datasets.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Use this skill for processing and analyzing large tabular datasets (billions of rows) that exceed available RAM. Vaex excels at out-of-core DataFrame operations, lazy evaluation, fast aggregations, efficient visualization of big data, and machine learning on large datasets. Apply when users need to work with large CSV/HDF5/Arrow/Parquet files, perform fast statistics on massive datasets, create visualizations of big data, or build ML pipelines that do not fit in memory.
How to use
Zainstaluj Vaex za pomocą pip:
pip install vaex. Biblioteka wymaga Pythona 3.7 lub nowszego.Wczytaj duży plik danych — zamiast tradycyjnego ładowania do pamięci, użyj Vaex do otwarcia pliku HDF5, CSV, Arrow lub Parquet. Vaex automatycznie mapuje plik na dysku, nie ładując go całego do RAM-u.
Twórz wirtualne kolumny do transformacji danych bez duplikowania pamięci. Vaex oblicza wartości na żądanie, co pozwala na szybkie operacje na miliardach wierszy.
Wykonuj agregacje i statystyki — policz, zsumuj, oblicz średnią lub inne metryki na całym zbiorze danych. Vaex optymalizuje te operacje do pracy z danymi spoza pamięci.
Wizualizuj wyniki za pomocą wbudowanych funkcji Vaex do tworzenia histogramów, heatmap'ów i innych wykresów dużych zbiorów danych.
Jeśli potrzebujesz uczenia maszynowego, zbuduj pipeline z wykorzystaniem Vaex DataFrames — biblioteka integruje się z popularnymi frameworkami ML do pracy na danych, które nie mieszczą się w pamięci.