llm-evaluation
Implement comprehensive evaluation strategies for LLM applications using automated metrics, human feedback, and benchmarking. Use when testing LLM performance, measuring AI application quality, or establishing evaluation frameworks.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Implement comprehensive evaluation strategies for LLM applications using automated metrics, human feedback, and benchmarking. Use when testing LLM performance, measuring AI application quality, or establishing evaluation frameworks.
How to use
Zainstaluj skill llm-evaluation w swoim środowisku agenta lub Claude'a, dodając go do listy dostępnych umiejętności.
Przygotuj zestaw testowy zawierający przykładowe wejścia, oczekiwane wyjścia oraz rzeczywiste odpowiedzi z Twojej aplikacji LLM, którą chcesz ocenić.
Wybierz metryki automatyczne odpowiednie do Twojego zadania: dla generowania tekstu (tłumaczenie, streszczanie) użyj BLEU, ROUGE lub BERTScore; dla klasyfikacji wybierz Accuracy, Precision, Recall lub F1; dla systemów RAG zastosuj MRR, NDCG lub Precision@K.
Uruchom ocenę automatyczną, aby uzyskać szybkie, powtarzalne wyniki. Skill obliczy wybrane metryki dla całego zestawu testowego i zwróci wyniki w postaci liczbowej.
Jeśli metryki automatyczne nie wystarczają, dodaj ocenę człowieka dla wymiarów takich jak dokładność faktyczna, spójność logiczna, trafność odpowiedzi, płynność języka lub bezpieczeństwo treści. Możesz też użyć mocniejszego modelu LLM jako sędziego do porównywania par odpowiedzi.
Porównaj wyniki między różnymi modelami, wersjami promptów lub konfiguracjami, aby zidentyfikować ulepszenia, wykryć regresje przed wdrożeniem i ustalić linie bazowe do śledzenia postępów w czasie.