Toolverse
All skills

stable-baselines3

by K-Dense-AI

Production-ready reinforcement learning algorithms (PPO, SAC, DQN, TD3, DDPG, A2C) with scikit-learn-like API. Use for standard RL experiments, quick prototyping, and well-documented algorithm implementations. Best for single-agent RL with Gymnasium environments. For

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Category
Security
Views
9

About this skill

Production-ready reinforcement learning algorithms (PPO, SAC, DQN, TD3, DDPG, A2C) with scikit-learn-like API. Use for standard RL experiments, quick prototyping, and well-documented algorithm implementations. Best for single-agent RL with Gymnasium environments. For high-performance parallel training, multi-agent systems, or custom vectorized environments, use pufferlib instead.

How to use

  1. Zainstaluj bibliotekę Stable Baselines3 wraz z zależnościami (PyTorch, Gymnasium). Upewnij się, że masz Python 3.7+.

  2. Utwórz środowisko treningowe za pomocą Gymnasium — możesz użyć predefiniowanego środowiska (np. CartPole-v1) lub stworzyć własne, implementując wymagany interfejs.

  3. Zainicjalizuj model agenta, wybierając odpowiedni algorytm (PPO dla zadań ogólnych, SAC/TD3 dla sterowania ciągłego, DQN dla akcji dyskretnych). Przekaż środowisko i typ polityki (np. MlpPolicy).

  4. Wytrenuj agenta za pomocą metody learn(), określając total_timesteps — pamiętaj, że rzeczywiste trenowanie może przekroczyć tę wartość ze względu na zbieranie batch'y.

  5. Zapisz wytrenowany model za pomocą save() — replaye buffer nie jest zapisywany, aby zaoszczędzić miejsce.

  6. Załaduj model do ewaluacji lub dalszego trenowania, używając statycznej metody load() z podaniem środowiska. Możesz teraz testować agenta na nowych zadaniach lub kontynuować trenowanie.

Related skills