Toolverse
All skills

promptfoo-evaluation

by daymade

Configures and runs LLM evaluation using Promptfoo framework. Use when setting up prompt testing, creating evaluation configs (promptfooconfig.yaml), writing Python custom assertions, implementing llm-rubric for LLM-as-judge, or managing few-shot examples in prompts. Triggers on

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
daymade
Category
Testing
Views
2

About this skill

Configures and runs LLM evaluation using Promptfoo framework. Use when setting up prompt testing, creating evaluation configs (promptfooconfig.yaml), writing Python custom assertions, implementing llm-rubric for LLM-as-judge, or managing few-shot examples in prompts. Triggers on keywords like \

How to use

  1. Zainstaluj Promptfoo, uruchamiając polecenie npx promptfoo@latest init w katalogu projektu. Narzędzie utworzy strukturę katalogów i plik promptfooconfig.yaml, który będzie podstawą Twojej konfiguracji.

  2. Przygotuj prompty do testowania. Umieść je w katalogu prompts/ — mogą to być pliki Markdown (system.md) lub JSON (chat.json). W pliku promptfooconfig.yaml wskaż ścieżki do tych promptów w sekcji prompts.

  3. Zdefiniuj modele do porównania w sekcji providers promptfooconfig.yaml. Możesz testować różne wersje Claude'a, GPT-4 lub inne dostępne modele, przypisując każdemu unikalny identyfikator i etykietę.

  4. Przygotuj przypadki testowe w pliku tests/cases.yaml. Każdy przypadek powinien zawierać dane wejściowe i oczekiwane wyniki, które będą podstawą do oceny odpowiedzi modeli.

  5. Dodaj niestandardowe metryki oceny. Napisz asercje w Pythonie (w pliku scripts/metrics.py) lub użyj wbudowanego llm-rubric do automatycznej oceny jakości. Skonfiguruj je w sekcji defaultTest promptfooconfig.yaml, ustawiając progi akceptacji (threshold).

  6. Uruchom ewaluację poleceniem npx promptfoo@latest eval, a następnie wyświetl wyniki w przeglądarce za pomocą npx promptfoo@latest view. Porównaj wydajność modeli i zoptymalizuj prompty na podstawie otrzymanych wyników.

Related skills