nemo-curator
GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality training datasets, cleaning web data, or deduplicating large corpora.
How to use
Zainstaluj nemo-curator za pomocą pip. Dla przetwarzania tekstu z CUDA 12 uruchom: uv pip install "nemo-curator[text_cuda12]". Jeśli pracujesz ze wszystkimi typami mediów (tekst, obrazy, wideo, audio), użyj: uv pip install "nemo-curator[all_cuda12]". Dla środowiska CPU-only (wolniejsze) zainstaluj: uv pip install "nemo-curator[cpu]".
Przygotuj swoje dane w formacie DataFrame — załaduj tekst lub inne media do struktury danych, którą będziesz przetwarzać. Narzędzie pracuje z DocumentDataset, więc upewnij się, że twoje dane są w odpowiednim formacie.
Zdefiniuj funkcję filtrowania jakości dostosowaną do twoich potrzeb. Możesz wykorzystać wbudowane heurystyki jakości lub napisać własną logikę oceny dokumentów.
Zastosuj ScoreFilter do swojego zestawu danych, aby odfiltrować dokumenty niskiej jakości, zawierające dane osobowe lub treści NSFW. Narzędzie automatycznie skaluje przetwarzanie na dostępnych GPU.
Uruchom pipeline deduplikacji — rozmyta deduplikacja usuwa duplikaty nawet jeśli tekst nieznacznie się różni. Dla dużych zbiorów danych ta operacja będzie 16 razy szybsza niż na CPU.
Eksportuj oczyszczone dane do formatu wymaganego przez twój model treningowy. Narzędzie zwraca gotowe dane bez duplikatów, z usuniętymi danymi wrażliwymi i przefiltrowaną zawartością.