Toolverse
All skills

sglang

by davila7

Fast structured generation and serving for LLMs with RadixAttention prefix caching. Use for JSON/regex outputs, constrained decoding, agentic workflows with tool calls, or when you need 5× faster inference than vLLM with prefix sharing. Powers 300,000+ GPUs at xAI, AMD, NVIDIA,

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security
Views
20

About this skill

Fast structured generation and serving for LLMs with RadixAttention prefix caching. Use for JSON/regex outputs, constrained decoding, agentic workflows with tool calls, or when you need 5× faster inference than vLLM with prefix sharing. Powers 300,000+ GPUs at xAI, AMD, NVIDIA, and LinkedIn.

How to use

  1. Zainstaluj SGLang za pomocą pip: uruchom pip install "sglang[all]". Jeśli chcesz szybszą inferencję z FlashInfer, zamiast tego użyj pip install sglang[all] flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/ (wymaga CUDA 11.8 lub 12.1).

  2. Uruchom serwer SGLang z wybranym modelem. Podstawowe polecenie to python -m sglang.launch_server --model-path meta-llama/Meta-Llama-3-8B-Instruct --port 30000. Buforowanie prefiksów RadixAttention jest domyślnie włączone, co automatycznie przyspiesza powtarzające się części zapytań.

  3. Połącz się z serwerem z poziomu aplikacji klienta, wysyłając żądania HTTP na port 30000. SGLang obsługuje strukturalne wyjścia JSON, wyrażenia regularne i gramatyki, więc możesz określić format odpowiedzi w swoim zapytaniu.

  4. Dla przepływów pracy agentów z wieloma turami rozmowy lub powtarzającymi się systemowymi instrukcjami skorzystaj z prefiksów – SGLang automatycznie będzie je buforować, zmniejszając czas przetwarzania kolejnych żądań.

  5. Monitoruj wydajność: SGLang jest szczególnie efektywny dla zadań wymagających strukturalnych wyjść (JSON, dekodowanie z ograniczeniami) i agentów z funkcjami, gdzie buforowanie prefiksów daje największe przyspieszenie.

Related skills

ui-audit

by openclaw

AI skill for automated UI audits. Evaluate interfaces against proven UX principles for visual hierarchy, accessibility, cognitive load, navigation, and more. Based on Making UX Decisions by Tommy Geoco.

Security
1223

youtube-watcher

by openclaw

Fetch and read transcripts from YouTube videos. Use when you need to summarize a video, answer questions about its content, or extract information from it.

Security
2231

manim

by davila7

Comprehensive guide for Manim Community - Python framework for creating mathematical animations and educational videos with programmatic control

Security
1588

brand-voice

by anthropics

Apply and enforce brand voice, style guide, and messaging pillars across content. Use when reviewing content for brand consistency, documenting a brand voice, adapting tone for different audiences, or checking terminology and style guide compliance.

Security
48158

senior-security

by davila7

Comprehensive security engineering skill for application security, penetration testing, security architecture, and compliance auditing. Includes security assessment tools, threat modeling, crypto implementation, and security automation. Use when designing security architecture,

Security
2482

software-security

by project-codeguard

A software security skill that integrates with Project CodeGuard to help AI coding agents write secure code and prevent common vulnerabilities. Use this skill when writing, reviewing, or modifying code to ensure secure-by-default practices are followed.

Security
1678