A
awq-quantization
Activation-aware weight quantization for 4-bit LLM compression with 3x speedup and minimal accuracy loss. Use when deploying large models (7B-70B) on limited GPU memory, when you need faster inference than GPTQ with better accuracy preservation, or for instruction-tuned and
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Activation-aware weight quantization for 4-bit LLM compression with 3x speedup and minimal accuracy loss. Use when deploying large models (7B-70B) on limited GPU memory, when you need faster inference than GPTQ with better accuracy preservation, or for instruction-tuned and multimodal models. MLSys 2024 Best Paper Award winner.
How to use
- Zainstaluj bibliotekę autoawq za pomocą pip install autoawq. Jeśli chcesz zoptymalizowane jądra CUDA i Flash Attention, użyj pip install autoawq[kernels]. Upewnij się, że masz Python 3.8+, CUDA 11.8+ i GPU z compute capability 7.5 lub wyższym.
- Pobierz wstępnie skwantyzowany model z repozytorium HuggingFace, na przykład TheBloke/Mistral-7B-Instruct-v0.2-AWQ, który jest już przygotowany w formacie AWQ.
- Załaduj model w Pythonie, importując AutoAWQForCausalLM z biblioteki awq oraz AutoTokenizer z transformers. Użyj metody from_quantized() z parametrem fuse_layers=True, aby połączyć warstwy i zwiększyć wydajność.
- Przygotuj tokenizer dla wybranego modelu, wczytując go za pomocą AutoTokenizer.from_pretrained() z tą samą nazwą modelu.
- Uruchom inferecję, przekazując tekst wejściowy przez tokenizer, a następnie generując odpowiedź modelem. Skwantyzowany model będzie działać szybciej i zajmować mniej pamięci GPU niż wersja pełnej precyzji.
- Jeśli pracujesz z vLLM do serwowania w produkcji, upewnij się, że Twoje GPU obsługuje jądra Marlin dla najlepszej wydajności.