llm-evaluation

Name: llm-evaluation
Author: wshobson

Implement comprehensive evaluation strategies for LLM applications using automated metrics, human feedback, and benchmarking. Use when testing LLM performance, measuring AI application quality, or establishing evaluation frameworks.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: wshobson
Category: Data Science
Views: 65

GitHub repo

About this skill

How to use

Zainstaluj skill llm-evaluation w swoim środowisku agenta lub Claude'a, dodając go do listy dostępnych umiejętności.
Przygotuj zestaw testowy zawierający przykładowe wejścia, oczekiwane wyjścia oraz rzeczywiste odpowiedzi z Twojej aplikacji LLM, którą chcesz ocenić.
Wybierz metryki automatyczne odpowiednie do Twojego zadania: dla generowania tekstu (tłumaczenie, streszczanie) użyj BLEU, ROUGE lub BERTScore; dla klasyfikacji wybierz Accuracy, Precision, Recall lub F1; dla systemów RAG zastosuj MRR, NDCG lub Precision@K.
Uruchom ocenę automatyczną, aby uzyskać szybkie, powtarzalne wyniki. Skill obliczy wybrane metryki dla całego zestawu testowego i zwróci wyniki w postaci liczbowej.
Jeśli metryki automatyczne nie wystarczają, dodaj ocenę człowieka dla wymiarów takich jak dokładność faktyczna, spójność logiczna, trafność odpowiedzi, płynność języka lub bezpieczeństwo treści. Możesz też użyć mocniejszego modelu LLM jako sędziego do porównywania par odpowiedzi.
Porównaj wyniki między różnymi modelami, wersjami promptów lub konfiguracjami, aby zidentyfikować ulepszenia, wykryć regresje przed wdrożeniem i ustalić linie bazowe do śledzenia postępów w czasie.

Related skills

deep-research

by davidorex

Multi-agent parallel investigation for complex VCV Rack problems

Data Science

16151

pdf

by anthropics

Comprehensive PDF manipulation toolkit for extracting text and tables, creating new PDFs, merging/splitting documents, and handling forms. When Claude needs to fill in a PDF form or programmatically process, generate, or analyze PDF documents at scale.

Data Science

31144

arxiv-search

by langchain-ai

Search arXiv preprint repository for papers in physics, mathematics, computer science, quantitative biology, and related fields

Data Science

76172

last30days

by sickn33

Research a topic from the last 30 days on Reddit + X + Web, become an expert, and write copy-paste-ready prompts for the user's target tool.

Data Science

2148

openrouter

by rawveg

OpenRouter API - Unified access to 400+ AI models through one API

Data Science

17138

pdf-processing

by Ming-Kai-LC

Comprehensive PDF processing techniques for handling large files that exceed Claude Code's reading limits, including chunking strategies, text/table extraction, and OCR for scanned documents. Use when working with PDFs larger than 10-15MB or more than 30-50 pages.

Data Science

23134