llamaguard
Meta's 7-8B specialized moderation model for LLM input/output filtering. 6 safety categories - violence/hate, sexual content, weapons, substances, self-harm, criminal planning. 94-95% accuracy. Deploy with vLLM, HuggingFace, Sagemaker. Integrates with NeMo Guardrails.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Meta's 7-8B specialized moderation model for LLM input/output filtering. 6 safety categories - violence/hate, sexual content, weapons, substances, self-harm, criminal planning. 94-95% accuracy. Deploy with vLLM, HuggingFace, Sagemaker. Integrates with NeMo Guardrails.
How to use
Zainstaluj wymagane biblioteki: uruchom
pip install transformers torch, a następnie zaloguj się do HuggingFace za pomocąhuggingface-cli login– dostęp do modelu Meta wymaga autoryzacji.Zaimportuj model i tokenizer w swoim skrypcie Pythona: użyj
AutoTokenizeriAutoModelForCausalLMz biblioteki transformers, wskazując model-id "meta-llama/LlamaGuard-7b" i ustawiającdevice_map="auto"dla automatycznego przydzielenia GPU.Zdefiniuj funkcję moderacji, która przyjmuje wiadomość użytkownika, konwertuje ją do tokenów za pomocą
apply_chat_template, generuje klasyfikację modelem i dekoduje wynik – model zwraca "unsafe" lub "safe" wraz z kodem kategorii (np. "S3" dla planowania przestępstw).Sprawdzaj bezpieczeństwo wejścia przed wysłaniem do głównego chatbota: wywołaj funkcję moderacji na wiadomości użytkownika, a jeśli wynik zaczyna się od "unsafe", zablokuj żądanie i zwróć błąd – w przeciwnym razie pozwól na przetworzenie.
Opcjonalnie zintegruj z NeMo Guardrails, aby osadzić LlamaGuard w szerszym systemie bezpieczeństwa i automatyzować przepływ kontroli treści w całej aplikacji.