spark-optimization

Name: spark-optimization
Author: wshobson

Optimize Apache Spark jobs with partitioning, caching, shuffle optimization, and memory tuning. Use when improving Spark performance, debugging slow jobs, or scaling data processing pipelines.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: wshobson
Category: DevOps
Views: 27

GitHub repo

About this skill

Optimize Apache Spark jobs with partitioning, caching, shuffle optimization, and memory tuning. Use when improving Spark performance, debugging slow jobs, or scaling data processing pipelines.

How to use

Zainstaluj skill spark-optimization w swoim środowisku agenta, dodając go do konfiguracji pluginów data-engineering.
Zainicjuj sesję Spark z optymalnymi ustawieniami — włącz adaptacyjne wykonywanie zadań (spark.sql.adaptive.enabled), łączenie partycji (spark.sql.adaptive.coalescePartitions.enabled) i detekcję skośności danych (spark.sql.adaptive.skewJoin.enabled).
Skonfiguruj serializator Kryo zamiast domyślnego — zmniejsza narzut CPU i przyspieszą transmisję danych między executorami.
Dostosuj liczbę partycji shuffle'a (spark.sql.shuffle.partitions) do rozmiaru klastra i dostępnej pamięci — domyślnie 200 partycji, ale zmień na podstawie liczby executorów i wielkości danych.
Wczytaj dane z optymalnymi ustawieniami i zastosuj transformacje — skill automatycznie minimalizuje operacje shuffle'a i równoważy obciążenie między taskami.
Monitoruj wykonywanie zadania w Spark UI — sprawdzaj czas shuffle'a, rozmiary partycji i wykorzystanie pamięci, aby zidentyfikować wąskie gardła i dalsze możliwości optymalizacji.

Related skills

aws-solution-architect

by alirezarezvani

Design AWS architectures for startups using serverless patterns and IaC templates. Use when asked to design serverless architecture, create CloudFormation templates, optimize AWS costs, set up CI/CD pipelines, or migrate to AWS. Covers Lambda, API Gateway, DynamoDB, ECS, Aurora,

DevOps

1231

trello

by openclaw

Manage Trello boards, lists, and cards via the Trello REST API.

DevOps

23107

3d-games

by davila7

3D game development principles. Rendering, shaders, physics, cameras.

DevOps

1355

streamlit

by sverzijl

When working with Streamlit web apps, data dashboards, ML/AI app UIs, interactive Python visualizations, or building data science applications with Python

DevOps

49161

file-organizer

by ComposioHQ

Intelligently organizes your files and folders across your computer by understanding context, finding duplicates, suggesting better structures, and automating cleanup tasks. Reduces cognitive load and keeps your digital workspace tidy without manual effort.

DevOps

1399

docker-containerization

by openclaw

This skill should be used when containerizing applications with Docker, creating Dockerfiles, docker-compose configurations, or deploying containers to various platforms. Ideal for Next.js, React, Node.js applications requiring containerization for development, production, or

DevOps

1334