llama-cpp
Runs LLM inference on CPU, Apple Silicon, and consumer GPUs without NVIDIA hardware. Use for edge deployment, M1/M2/M3 Macs, AMD/Intel GPUs, or when CUDA is unavailable. Supports GGUF quantization (1.5-8 bit) for reduced memory and 4-10× speedup vs PyTorch on CPU.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Runs LLM inference on CPU, Apple Silicon, and consumer GPUs without NVIDIA hardware. Use for edge deployment, M1/M2/M3 Macs, AMD/Intel GPUs, or when CUDA is unavailable. Supports GGUF quantization (1.5-8 bit) for reduced memory and 4-10× speedup vs PyTorch on CPU.
How to use
Zainstaluj llama.cpp: na macOS/Linux użyj brew install llama.cpp, lub sklonuj repozytorium z GitHub (github.com/ggerganov/llama.cpp) i uruchom make. Jeśli masz Mac z Apple Silicon, dodaj flagę LLAMA_METAL=1, dla AMD GPU użyj LLAMA_HIP=1.
Pobierz model w formacie GGUF z HuggingFace, np. Llama-2-7B-Chat-GGUF. Użyj komendy huggingface-cli download, podając nazwę modelu i wersję kwantyzacji (np. Q4_K_M). Modele zapisz w katalogu models/.
Uruchom proste wnioskowanie: użyj llama-cli z flagą -m wskazującą ścieżkę do modelu, -p z pytaniem lub instrukcją, oraz -n określającą maksymalną liczbę tokenów odpowiedzi (np. 256).
Do interaktywnej rozmowy dodaj flagę --interactive, co pozwoli na wielokrotne pytania bez restartowania programu.
Dla zaawansowanego użytku uruchom tryb serwera (server mode), który umożliwia dostęp do modelu przez API — szczegóły znajdują się w dokumentacji README.