G
gguf-quantization
GGUF format and llama.cpp quantization for efficient CPU/GPU inference. Use when deploying models on consumer hardware, Apple Silicon, or when needing flexible quantization from 2-8 bit without GPU requirements.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
GGUF format and llama.cpp quantization for efficient CPU/GPU inference. Use when deploying models on consumer hardware, Apple Silicon, or when needing flexible quantization from 2-8 bit without GPU requirements.
How to use
- Sklonuj repozytorium llama.cpp z GitHuba i przejdź do katalogu projektu.
- Zbuduj projekt za pomocą make — wybierz wersję dla swojego sprzętu: make dla CPU, make GGML_CUDA=1 dla NVIDIA, lub make GGML_METAL=1 dla Apple Silicon.
- Zainstaluj opcjonalne wiązania Pythona poleceniem pip install llama-cpp-python, jeśli planujesz używać modelu z kodu Python.
- Pobierz model w formacie GGUF z repozytorium HuggingFace (szukaj tagów GGUF) lub skonwertuj istniejący model za pomocą skryptu konwersji z llama.cpp.
- Uruchom model lokalnie za pomocą LM Studio, Ollama lub innego narzędzia obsługującego GGUF, wskazując pobrany plik.
- Dostosuj parametry kwantyzacji (Q2_K do Q8_0) w zależności od dostępnej pamięci i wymaganej dokładności — niższe wartości (Q2_K) zużywają mniej RAM, wyższe (Q8_0) zachowują lepszą jakość.