grpo-rl-training

Name: grpo-rl-training
Author: davila7

by davila7

Expert guidance for GRPO/RL fine-tuning with TRL for reasoning and task-specific model training

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: davila7
Category: Security
Views: 37

GitHub repo

About this skill

Expert guidance for GRPO/RL fine-tuning with TRL for reasoning and task-specific model training

How to use

Zainstaluj wymagane zależności: transformers (≥4.47.0), trl (≥0.14.0), datasets (≥3.2.0), peft (≥0.14.0) oraz torch. Upewnij się, że masz dostęp do GPU do treningu.
Przygotuj zbiór danych treningowych zawierający prompty, dla których chcesz generować odpowiedzi. Dane powinny być w formacie obsługiwanym przez bibliotekę datasets.
Zdefiniuj funkcję nagradzającą (reward function) odpowiadającą Twoim celom — może to być weryfikacja formatu wyjścia (np. poprawny JSON), ocena poprawności logicznej lub zgodność z szablonem strukturalnym.
Skonfiguruj parametry GRPO: rozmiar grupy (4-16 completionów na prompt), liczbę epok treningu i współczynnik uczenia. Użyj GRPO zamiast PPO, jeśli nie masz gotowych par preferencji.
Uruchom trening, podając model bazowy, zbiór danych, funkcję nagradzającą i konfigurację. Biblioteka TRL automatycznie generuje grupy completionów i porównuje je wewnątrz grupy.
Po treningu przetestuj dostrojony model na przykładach, aby sprawdzić, czy nauczył się pożądanych formatów i zachowań. Iteruj funkcję nagradzającą, jeśli wyniki nie spełniają oczekiwań.

Related skills

reviewing-code

by CaptainCrouton89

Systematically evaluate code changes for security, correctness, performance, and spec alignment. Use when reviewing PRs, assessing code quality, or verifying implementation against requirements.

Security

1493

better-auth-best-practices

by novuhq

Skill for integrating Better Auth - the comprehensive TypeScript authentication framework.

Security

1148

typescript-review

by metabase

Review TypeScript and JavaScript code changes for compliance with Metabase coding standards, style violations, and code quality issues. Use when reviewing pull requests or diffs containing TypeScript/JavaScript code.

Security

17133

windows-ui-automation

by martinholovsky

Security

10115

backend-security-coder

by sickn33

Expert in secure backend coding practices specializing in input validation, authentication, and API security. Use PROACTIVELY for backend security implementations or security code reviews.

Security

1133

architect-review

by sickn33

Master software architect specializing in modern architecture patterns, clean architecture, microservices, event-driven systems, and DDD. Reviews system designs and code changes for architectural integrity, scalability, and maintainability. Use PROACTIVELY for architectural

Security

2773