redteam-plugin-development
Standards for creating redteam plugins and graders. Use when creating new plugins, writing graders, or modifying attack templates.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Standards for creating redteam plugins and graders. Use when creating new plugins, writing graders, or modifying attack templates.
How to use
Zainstaluj skill redteam-plugin-development w swoim środowisku Claude'a lub Codex'a, pobierając go z repozytorium promptfoo na GitHub.
Przed utworzeniem nowej wtyczki lub gradera zapoznaj się z wymaganiami dotyczącymi znormalizowanych tagów — zawsze używaj
<UserQuery>{{prompt}}</UserQuery>dla promptu użytkownika i<purpose>{{purpose}}</purpose>dla celu systemu, nigdy nie stosuj przestarzałych wariantów takich jak<UserPrompt>czy<prompt>.Podczas pisania gradera oceniającego odpowiedzi AI strukturyzuj kod według podanego szablonu: otwórz z opisem celu systemu, opcjonalnie dodaj listę dozwolonych jednostek, umieść prompt użytkownika w odpowiednich tagach, a następnie zdefiniuj warunki FAIL i PASS z przypisanymi wynikami.
Jeśli modyfikujesz szablony ataków, postępuj zgodnie ze strukturą DEFAULT_EXAMPLES — każdy przykład powinien zawierać cel systemu i przykładowy prompt ataku, wszystko opakowane w tagi
<Example>.Weryfikuj swoją wtyczkę lub grader pod kątem zgodności z wytycznymi — upewnij się, że wszystkie wymagane tagi są obecne, a struktura rubryk zawiera jasne kryteria oceny.
Testuj wtyczkę w kontekście red team promptfoo, aby potwierdzić, że grader prawidłowo ocenia odpowiedzi modelu i zwraca strukturę zawierającą reason, pass i score.