Toolverse
All skills

gguf-quantization

by davila7

GGUF format and llama.cpp quantization for efficient CPU/GPU inference. Use when deploying models on consumer hardware, Apple Silicon, or when needing flexible quantization from 2-8 bit without GPU requirements.

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security
Views
20

About this skill

GGUF format and llama.cpp quantization for efficient CPU/GPU inference. Use when deploying models on consumer hardware, Apple Silicon, or when needing flexible quantization from 2-8 bit without GPU requirements.

How to use

  1. Sklonuj repozytorium llama.cpp z GitHuba i przejdź do katalogu projektu.
  2. Zbuduj projekt za pomocą make — wybierz wersję dla swojego sprzętu: make dla CPU, make GGML_CUDA=1 dla NVIDIA, lub make GGML_METAL=1 dla Apple Silicon.
  3. Zainstaluj opcjonalne wiązania Pythona poleceniem pip install llama-cpp-python, jeśli planujesz używać modelu z kodu Python.
  4. Pobierz model w formacie GGUF z repozytorium HuggingFace (szukaj tagów GGUF) lub skonwertuj istniejący model za pomocą skryptu konwersji z llama.cpp.
  5. Uruchom model lokalnie za pomocą LM Studio, Ollama lub innego narzędzia obsługującego GGUF, wskazując pobrany plik.
  6. Dostosuj parametry kwantyzacji (Q2_K do Q8_0) w zależności od dostępnej pamięci i wymaganej dokładności — niższe wartości (Q2_K) zużywają mniej RAM, wyższe (Q8_0) zachowują lepszą jakość.

Related skills