add-reward
Guide for adding a new reward function to AReaL. Use when user wants to create a reward function.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Guide for adding a new reward function to AReaL. Use when user wants to create a reward function.
How to use
Utwórz nowy plik Python w katalogu
areal/reward/o nazwie<nazwa>.py, gdzie<nazwa>to identyfikator Twojej funkcji nagród.W pliku zdefiniuj główną funkcję
<nazwa>_reward_fn()przyjmującą parametry: prompt (tekst wejściowy), completions (odpowiedź modelu), prompt_ids i completion_ids (tokeny), answer (opcjonalna odpowiedź wzorcowa) oraz dodatkowe dane z datasetu.Zaimplementuj logikę obliczania nagrody wewnątrz funkcji — typowo porównaj ekstrakcję odpowiedzi z wartością wzorcową i zwróć 1.0 dla poprawnej odpowiedzi lub 0.0 dla błędnej. Dodaj obsługę wyjątków z logowaniem.
Utwórz funkcję pomocniczą
_extract_answer()do parsowania odpowiedzi z formatu zwracanego przez model — przykład pokazuje ekstrakcję z notacji\boxed{}.Zarejestruj nową funkcję w pliku
areal/reward/__init__.py, dodając jej nazwę do listyVALID_REWARD_FN.Skill będzie automatycznie dostępny gdy użytkownik poprosi o dodanie funkcji nagród lub wspomni o obliczaniu nagród w kontekście AReaL.