slm-lab-benchmark

Name: slm-lab-benchmark
Author: kengz

Run SLM-Lab deep RL benchmarks, monitor dstack jobs, extract results, and update BENCHMARKS.md. Use when asked to run benchmarks, check run status, extract scores, update benchmark tables, or generate plots.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: kengz
Category: Backend
Views: 2

GitHub repo

About this skill

How to use

Zainstaluj umiejętność w swoim projekcie SLM-Lab, upewniając się, że masz dostęp do dstack oraz skonfigurowany plik .env z kredencjałami Hugging Face.
Poproś Claude'a o uruchomienie benchmarków, podając nazwę środowiska (env) i parametry testów. Umiejętność automatycznie przygotuje specyfikacje zadań, respektując zmienną ${max_frame} i inne ustawienia z pliku konfiguracyjnego.
Monitoruj postęp uruchomionych zadań za pomocą polecenia dstack ps. Umiejętność będzie śledzić status każdego uruchomienia i czekać na jego zakończenie. Pamiętaj, że maksymalnie 10 zadań może być uruchomione jednocześnie — jeśli potrzebujesz więcej, umiejętność uruchomi je w partiach.
Po zakończeniu każdego zadania umiejętność automatycznie wyodrębni wynik (total_reward_ma), pobierze folder danych z Hugging Face i zaktualizuje tabelę wyników w BENCHMARKS.md wraz z linkami do danych.
Poproś o wygenerowanie wykresów porównawczych dla danego środowiska. Umiejętność zbierze wszystkie foldery danych, dopasuje je do wpisów w BENCHMARKS.md i utworzy wizualizacje za pomocą polecenia slm-lab plot.
Nigdy nie zatwierdzaj zmian w repozytorium zdalnym bez wyraźnej zgody — umiejętność będzie czekać na Twoją autoryzację przed push'em do gałęzi.

Related skills

stripe-integration

by wshobson

Implement Stripe payment processing for robust, PCI-compliant payment flows including checkout, subscriptions, and webhooks. Use when integrating Stripe payments, building subscription systems, or implementing secure checkout flows.

Backend

40147

seedream-image-gen

by openclaw

Generate images via Seedream API (doubao-seedream models). Synchronous generation.

Backend

6235

scientific-writing

by K-Dense-AI

Write scientific manuscripts. IMRAD structure, citations (APA/AMA/Vancouver), figures/tables, reporting guidelines (CONSORT/STROBE/PRISMA), abstracts, for research papers and journal submissions.

Backend

47191

clickup

by civitai

Interact with ClickUp tasks and documents - get task details, view comments, create and manage tasks, create and edit docs. Use when working with ClickUp task/doc URLs or IDs.

Backend

2483

literature-review

by K-Dense-AI

Conduct comprehensive, systematic literature reviews using multiple academic databases (PubMed, arXiv, bioRxiv, Semantic Scholar, etc.). This skill should be used when conducting systematic literature reviews, meta-analyses, research synthesis, or comprehensive literature

Backend

238507

context-optimizer

by openclaw

Advanced context management with auto-compaction and dynamic context optimization for DeepSeek's 64k context window. Features intelligent compaction (merging, summarizing, extracting), query-aware relevance scoring, and hierarchical memory system with context archive. Logs

Backend

2964