stable-baselines3
Production-ready reinforcement learning algorithms (PPO, SAC, DQN, TD3, DDPG, A2C) with scikit-learn-like API. Use for standard RL experiments, quick prototyping, and well-documented algorithm implementations. Best for single-agent RL with Gymnasium environments. For
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Production-ready reinforcement learning algorithms (PPO, SAC, DQN, TD3, DDPG, A2C) with scikit-learn-like API. Use for standard RL experiments, quick prototyping, and well-documented algorithm implementations. Best for single-agent RL with Gymnasium environments. For high-performance parallel training, multi-agent systems, or custom vectorized environments, use pufferlib instead.
How to use
Zainstaluj bibliotekę Stable Baselines3 wraz z zależnościami (PyTorch, Gymnasium). Upewnij się, że masz Python 3.7+.
Utwórz środowisko treningowe za pomocą Gymnasium — możesz użyć predefiniowanego środowiska (np. CartPole-v1) lub stworzyć własne, implementując wymagany interfejs.
Zainicjalizuj model agenta, wybierając odpowiedni algorytm (PPO dla zadań ogólnych, SAC/TD3 dla sterowania ciągłego, DQN dla akcji dyskretnych). Przekaż środowisko i typ polityki (np. MlpPolicy).
Wytrenuj agenta za pomocą metody learn(), określając total_timesteps — pamiętaj, że rzeczywiste trenowanie może przekroczyć tę wartość ze względu na zbieranie batch'y.
Zapisz wytrenowany model za pomocą save() — replaye buffer nie jest zapisywany, aby zaoszczędzić miejsce.
Załaduj model do ewaluacji lub dalszego trenowania, używając statycznej metody load() z podaniem środowiska. Możesz teraz testować agenta na nowych zadaniach lub kontynuować trenowanie.