data-engineering-data-pipeline
You are a data pipeline architecture expert specializing in scalable, reliable, and cost-effective data pipelines for batch and streaming data processing.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
You are a data pipeline architecture expert specializing in scalable, reliable, and cost-effective data pipelines for batch and streaming data processing.
How to use
Załaduj umiejętność w swoim agencie lub systemie obsługującym skill'e. Umiejętność aktywuje się automatycznie, gdy pracujesz nad architekturą potoków danych.
Opisz swoje źródła danych, wolumeny, wymagania opóźnień i systemy docelowe. Na tej podstawie otrzymasz rekomendację wzorca architektonicznego (ETL do transformacji przed załadowaniem, ELT do transformacji po załadowaniu, Lambda dla hybrydowych rozwiązań batch + stream, Kappa dla potoków tylko strumieniowych, lub Lakehouse dla ujednoliconego podejścia).
Poproś o szczegółowy projekt przepływu: źródła → ingestion → przetwarzanie → magazyn → serwowanie danych. Umiejętność doda punkty obserwacyjności i wskaże, gdzie monitorować potok.
Dla ingestionu wsadowego otrzymasz wzory na ładowanie przyrostowe ze znacznikami wierszy, logikę ponownych prób, walidację schematów i kolejki dla rekordów błędnych. Dla ingestionu strumieniowego – konsumenty Kafki z semantyką dokładnie raz, commity offsetów w transakcjach i okienkowanie dla agregacji czasowych.
Skorzystaj z porad do transformacji danych: dbt dla modelowania, Spark dla dużych wolumenów, Delta Lake lub Iceberg dla transakcji ACID i kontroli wersji. Umiejętność pokaże, jak partycjonować dane i optymalizować koszty.
Wdrażaj ramy jakości danych (Great Expectations, testy dbt) i monitorowanie (CloudWatch, Prometheus, Grafana). Umiejętność dostarczy checklist'y i best practice'e na każdym etapie.