Toolverse
All skills

evaluating-llms-harness

by davila7

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security
Views
27

About this skill

Evaluates LLMs across 60+ academic benchmarks (MMLU, HumanEval, GSM8K, TruthfulQA, HellaSwag). Use when benchmarking model quality, comparing models, reporting academic results, or tracking training progress. Industry standard used by EleutherAI, HuggingFace, and major labs. Supports HuggingFace, vLLM, APIs.

How to use

  1. Zainstaluj narzędzie za pomocą pip: pip install lm-eval. 2. Wybierz model do testowania — możesz użyć dowolnego modelu z HuggingFace, na przykład meta-llama/Llama-2-7b-hf. 3. Uruchom ewaluację na wybranych benchmarkach poleceniem lm_eval, podając nazwę modelu, jego parametry oraz listę zadań (na przykład mmlu, gsm8k, hellaswag). Określ również urządzenie (GPU) i rozmiar batcha dla wydajności. 4. Przeglądaj dostępne benchmarki poleceniem lm_eval --tasks list, aby wybrać te, które odpowiadają Twoim potrzebom — benchmarki rozumowania (MMLU, GSM8K, HellaSwag), benchmarki kodowania (HumanEval, MBPP) lub własny zestaw. 5. Czekaj na zakończenie ewaluacji — narzędzie obliczy wyniki dla każdego benchmarku i wyświetli metryki porównawcze. 6. Przeanalizuj wyniki, aby porównać modele, zidentyfikować słabe punkty lub zaraportować postęp treningu w publikacjach naukowych.

Related skills