P
prompt-guard
Meta's 86M prompt injection and jailbreak detector. Filters malicious prompts and third-party data for LLM apps. 99%+ TPR, u003c1% FPR. Fast (u003c2ms GPU). Multilingual (8 languages). Deploy with HuggingFace or batch processing for RAG security.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Meta's 86M prompt injection and jailbreak detector. Filters malicious prompts and third-party data for LLM apps. 99%+ TPR, u003c1% FPR. Fast (u003c2ms GPU). Multilingual (8 languages). Deploy with HuggingFace or batch processing for RAG security.
How to use
- Zainstaluj wymagane biblioteki, uruchamiając w terminalu polecenie pip install transformers torch. 2. Załaduj model i tokenizer z HuggingFace, korzystając z identyfikatora meta-llama/Prompt-Guard-86M. Zainicjuj model w trybie ewaluacji, aby wyłączyć uczenie. 3. Przygotuj funkcję, która przyjmuje tekst wejściowy, tokenizuje go z maksymalną długością 512 znaków i przekazuje do modelu. 4. Oblicz prawdopodobieństwo jailbreak z trzeciego wyjścia modelu (indeks 2) za pomocą softmax. 5. Ustaw próg decyzji (zazwyczaj 0,5) i porównaj wynik: jeśli prawdopodobieństwo przekracza próg, oznacza to wykrycie próby jailbreak. 6. Zintegruj filtrowanie z potokiem aplikacji, aby blokować niebezpieczne dane wejściowe przed przekazaniem ich do modelu językowego.