Toolverse
All skills

data-engineering

by pluginagentmarketplace

ETL pipelines, Apache Spark, data warehousing, and big data processing. Use for building data pipelines, processing large datasets, or data infrastructure.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
DevOps
Views
133

About this skill

ETL pipelines, Apache Spark, data warehousing, and big data processing. Use for building data pipelines, processing large datasets, or data infrastructure.

How to use

  1. Zainstaluj wymagane biblioteki: PySpark do przetwarzania rozproszonego oraz Apache Airflow do orkiestracji potoków. Upewnij się, że masz dostęp do klastra Spark i systemu magazynowania (S3, HDFS lub innego).

  2. Zainicjuj sesję Spark w swoim skrypcie, konfigurując parametry takie jak pamięć executora i nazwa aplikacji. Użyj SparkSession.builder do utworzenia połączenia z klastrem.

  3. Wczytaj dane z zewnętrznego źródła (np. pliki Parquet z S3) za pomocą spark.read. Określ format i ścieżkę do danych źródłowych.

  4. Zastosuj transformacje danych: filtruj wiersze, grupuj po kolumnach, obliczaj agregaty (sumę, średnią, liczbę). Spark wykonuje te operacje leniwie, optymalizując plan zapytania.

  5. Zapisz przetworzone dane do magazynu danych, wybierając tryb zapisu (overwrite lub append) i partycjonując wyniki po dacie lub innym kluczu dla lepszej wydajności.

  6. Dla automatyzacji powtarzalnych procesów zdefiniuj DAG w Apache Airflow: utwórz funkcje extract, transform i load, połącz je w sekwencję zadań, ustaw harmonogram (np. codziennie) i konfiguruj powiadomienia o błędach.

Related skills