sglang
Fast structured generation and serving for LLMs with RadixAttention prefix caching. Use for JSON/regex outputs, constrained decoding, agentic workflows with tool calls, or when you need 5× faster inference than vLLM with prefix sharing. Powers 300,000+ GPUs at xAI, AMD, NVIDIA,
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Fast structured generation and serving for LLMs with RadixAttention prefix caching. Use for JSON/regex outputs, constrained decoding, agentic workflows with tool calls, or when you need 5× faster inference than vLLM with prefix sharing. Powers 300,000+ GPUs at xAI, AMD, NVIDIA, and LinkedIn.
How to use
Zainstaluj SGLang za pomocą pip: uruchom
pip install "sglang[all]". Jeśli chcesz szybszą inferencję z FlashInfer, zamiast tego użyjpip install sglang[all] flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/(wymaga CUDA 11.8 lub 12.1).Uruchom serwer SGLang z wybranym modelem. Podstawowe polecenie to
python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --port 30000. Buforowanie prefiksów RadixAttention jest domyślnie włączone, co automatycznie przyspiesza powtarzające się części zapytań.Połącz się z serwerem z poziomu aplikacji klienta, wysyłając żądania HTTP na port 30000. SGLang obsługuje strukturalne wyjścia JSON, wyrażenia regularne i gramatyki, więc możesz określić format odpowiedzi w swoim zapytaniu.
Dla przepływów pracy agentów z wieloma turami rozmowy lub powtarzającymi się systemowymi instrukcjami skorzystaj z prefiksów – SGLang automatycznie będzie je buforować, zmniejszając czas przetwarzania kolejnych żądań.
Monitoruj wydajność: SGLang jest szczególnie efektywny dla zadań wymagających strukturalnych wyjść (JSON, dekodowanie z ograniczeniami) i agentów z funkcjami, gdzie buforowanie prefiksów daje największe przyspieszenie.