gptq
Post-training 4-bit quantization for LLMs with minimal accuracy loss. Use for deploying large models (70B, 405B) on consumer GPUs, when you need 4× memory reduction with u003c2% perplexity degradation, or for faster inference (3-4× speedup) vs FP16. Integrates with transformers
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Post-training 4-bit quantization for LLMs with minimal accuracy loss. Use for deploying large models (70B, 405B) on consumer GPUs, when you need 4× memory reduction with u003c2% perplexity degradation, or for faster inference (3-4× speedup) vs FP16. Integrates with transformers and PEFT for QLoRA fine-tuning.
How to use
Zainstaluj AutoGPTQ wraz z zależnościami: uruchom
pip install auto-gptq transformers accelerate. Na Linuksie możesz dodać obsługę Tritona dla szybszych obliczeń:pip install auto-gptq[triton].Załaduj wstępnie skwantyzowany model z HuggingFace Hub. Użyj klasy
AutoGPTQForCausalLMi metodyfrom_quantized(), podając nazwę modelu (np. "TheBloke/Llama-2-7B-Chat-GPTQ") oraz urządzenie docelowe (device="cuda:0").Załaduj tokenizer dla wybranego modelu za pomocą
AutoTokenizer.from_pretrained(), używając tej samej nazwy modelu.Przygotuj tekst wejściowy i zakoduj go tokenizerem, a następnie przekaż do modelu w celu generowania odpowiedzi. Model zwróci logity, które możesz zdekodować z powrotem na tekst.
Jeśli chcesz dostrajać model, połącz GPTQ z PEFT i QLoRA — biblioteka
peftpozwala na efektywne dostrajanie bez znacznego wzrostu zużycia pamięci.Wybierz między GPTQ a alternatywami: jeśli potrzebujesz lepszej dokładności (poniżej 1% straty), rozważ AWQ; jeśli wystarczy 8-bitowa kwantyzacja, użyj bitsandbytes.