Toolverse
All skills

slm-lab-benchmark

by kengz

Run SLM-Lab deep RL benchmarks, monitor dstack jobs, extract results, and update BENCHMARKS.md. Use when asked to run benchmarks, check run status, extract scores, update benchmark tables, or generate plots.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
kengz
Category
Backend
Views
2

About this skill

Run SLM-Lab deep RL benchmarks, monitor dstack jobs, extract results, and update BENCHMARKS.md. Use when asked to run benchmarks, check run status, extract scores, update benchmark tables, or generate plots.

How to use

  1. Zainstaluj umiejętność w swoim projekcie SLM-Lab, upewniając się, że masz dostęp do dstack oraz skonfigurowany plik .env z kredencjałami Hugging Face.

  2. Poproś Claude'a o uruchomienie benchmarków, podając nazwę środowiska (env) i parametry testów. Umiejętność automatycznie przygotuje specyfikacje zadań, respektując zmienną ${max_frame} i inne ustawienia z pliku konfiguracyjnego.

  3. Monitoruj postęp uruchomionych zadań za pomocą polecenia dstack ps. Umiejętność będzie śledzić status każdego uruchomienia i czekać na jego zakończenie. Pamiętaj, że maksymalnie 10 zadań może być uruchomione jednocześnie — jeśli potrzebujesz więcej, umiejętność uruchomi je w partiach.

  4. Po zakończeniu każdego zadania umiejętność automatycznie wyodrębni wynik (total_reward_ma), pobierze folder danych z Hugging Face i zaktualizuje tabelę wyników w BENCHMARKS.md wraz z linkami do danych.

  5. Poproś o wygenerowanie wykresów porównawczych dla danego środowiska. Umiejętność zbierze wszystkie foldery danych, dopasuje je do wpisów w BENCHMARKS.md i utworzy wizualizacje za pomocą polecenia slm-lab plot.

  6. Nigdy nie zatwierdzaj zmian w repozytorium zdalnym bez wyraźnej zgody — umiejętność będzie czekać na Twoją autoryzację przed push'em do gałęzi.

Related skills