data-cleaning-pipeline
Build robust processes for data cleaning, missing value imputation, outlier handling, and data transformation for data preprocessing, data quality, and data pipeline automation
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Build robust processes for data cleaning, missing value imputation, outlier handling, and data transformation for data preprocessing, data quality, and data pipeline automation
How to use
Zainstaluj wymagane biblioteki: pandas, numpy oraz scikit-learn (SimpleImputer, KNNImputer, StandardScaler, MinMaxScaler).
Wczytaj swoje dane surowe za pomocą pandas.read_csv() lub innego źródła danych.
Zidentyfikuj brakujące wartości używając df.isnull().sum() i wybierz strategię obsługi: usuń wiersze dla kolumn krytycznych (dropna), imputuj wartości numeryczne medianą (SimpleImputer), zastosuj imputację KNN dla powiązanych cech lub wypełnij kategorie modą.
Obsługuj anomalie i duplikaty: zidentyfikuj wartości odstające oraz zduplikowane wiersze, następnie usuń lub transformuj je zgodnie z wymaganiami projektu.
Standaryzuj typy danych i zakresy wartości: upewnij się, że kolumny mają prawidłowe typy (numeryczne, kategorialne, tekstowe), a następnie normalizuj zakresy za pomocą StandardScaler lub MinMaxScaler.
Waliduj czystość danych poprzez sprawdzenie reguł integralności i upewnienie się, że dane są gotowe do analizy lub modelowania.