nemo-evaluator-sdk
Evaluates LLMs across 100+ benchmarks from 18+ harnesses (MMLU, HumanEval, GSM8K, safety, VLM) with multi-backend execution. Use when needing scalable evaluation on local Docker, Slurm HPC, or cloud platforms. NVIDIA's enterprise-grade platform with container-first architecture
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Evaluates LLMs across 100+ benchmarks from 18+ harnesses (MMLU, HumanEval, GSM8K, safety, VLM) with multi-backend execution. Use when needing scalable evaluation on local Docker, Slurm HPC, or cloud platforms. NVIDIA's enterprise-grade platform with container-first architecture for reproducible benchmarking.
How to use
Zainstaluj narzędzie za pomocą pip: uruchom polecenie
pip install nemo-evaluator-launcherw swoim środowisku Python.Skonfiguruj klucz API NVIDIA, ustawiając zmienną środowiskową
NGC_API_KEYna swoją wartość (np.export NGC_API_KEY=nvapi-your-key-here).Utwórz plik konfiguracyjny
config.yamlzawierający endpoint API modelu, który chcesz testować (np. Llama 3.1 8B), oraz listę benchmarków do uruchomienia (takie jak ifeval, MMLU, GSM8K). Określ katalog wyjściowy dla wyników.Uruchom ewaluację poleceniem
nemo-evaluator-launcher run --config-dir . --config-name config. Narzędzie automatycznie pobierze benchmarki i uruchomi testy na skonfigurowanym modelu.Sprawdź dostępne benchmarki i harnessy za pomocą
nemo-evaluator-launcher ls tasks, aby wybrać te, które pasują do Twoich potrzeb.Po zakończeniu ewaluacji przejrzyj wyniki w katalogu
./results— zawierają szczegółowe metryki wydajności modelu na każdym benchmarku.