Toolverse
All skills

nemo-curator

by davila7

GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security
Views
1

About this skill

GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality training datasets, cleaning web data, or deduplicating large corpora.

How to use

  1. Zainstaluj nemo-curator za pomocą pip. Dla przetwarzania tekstu z CUDA 12 uruchom: uv pip install "nemo-curator[text_cuda12]". Jeśli pracujesz ze wszystkimi typami mediów (tekst, obrazy, wideo, audio), użyj: uv pip install "nemo-curator[all_cuda12]". Dla środowiska CPU-only (wolniejsze) zainstaluj: uv pip install "nemo-curator[cpu]".

  2. Przygotuj swoje dane w formacie DataFrame — załaduj tekst lub inne media do struktury danych, którą będziesz przetwarzać. Narzędzie pracuje z DocumentDataset, więc upewnij się, że twoje dane są w odpowiednim formacie.

  3. Zdefiniuj funkcję filtrowania jakości dostosowaną do twoich potrzeb. Możesz wykorzystać wbudowane heurystyki jakości lub napisać własną logikę oceny dokumentów.

  4. Zastosuj ScoreFilter do swojego zestawu danych, aby odfiltrować dokumenty niskiej jakości, zawierające dane osobowe lub treści NSFW. Narzędzie automatycznie skaluje przetwarzanie na dostępnych GPU.

  5. Uruchom pipeline deduplikacji — rozmyta deduplikacja usuwa duplikaty nawet jeśli tekst nieznacznie się różni. Dla dużych zbiorów danych ta operacja będzie 16 razy szybsza niż na CPU.

  6. Eksportuj oczyszczone dane do formatu wymaganego przez twój model treningowy. Narzędzie zwraca gotowe dane bez duplikatów, z usuniętymi danymi wrażliwymi i przefiltrowaną zawartością.

Related skills