A
add-dataset
Guide for adding a new dataset loader to AReaL. Use when user wants to add a new dataset.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Guide for adding a new dataset loader to AReaL. Use when user wants to add a new dataset.
How to use
- Utwórz nowy plik w katalogu
areal/dataset/o nazwie<nazwa>.py, gdzie<nazwa>to identyfikator Twojego zbioru danych. 2. W pliku zdefiniuj funkcjęget_<nazwa>_sft_dataset()przyjmującą ścieżkę do danych, split (train/validation/test), tokenizer i opcjonalnie maksymalną długość sekwencji. Funkcja powinna załadować dataset za pomocąload_dataset(), przetworzyć próbki (tokenizować pytania i odpowiedzi, utworzyć maskę straty) i zwrócić HuggingFace Dataset. 3. Jeśli planujesz trenowanie z reinforcement learning, dodaj drugą funkcjęget_<nazwa>_rl_dataset()z analogiczną sygnaturą, dostosowaną do wymagań RL. 4. W funkcji przetwarzającej (process) tokenizuj pełną sekwencję (prompt + odpowiedź + token końca), a następnie utwórz maskę straty: 0 dla tokeny promptu, 1 dla tokeny odpowiedzi. 5. Opcjonalnie filtruj próbki przekraczającemax_lengthza pomocądataset.filter(). 6. Skill zostanie automatycznie wyzwolony, gdy zapytasz o dodanie nowego zbioru danych lub wspomniasz o integracji loadera — zwróci ten przewodnik wraz z szablonami kodu.