Toolverse
All skills

model-pruning

by davila7

Reduce LLM size and accelerate inference using pruning techniques like Wanda and SparseGPT. Use when compressing models without retraining, achieving 50% sparsity with minimal accuracy loss, or enabling faster inference on hardware accelerators. Covers unstructured pruning,

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security
Views
17

About this skill

Reduce LLM size and accelerate inference using pruning techniques like Wanda and SparseGPT. Use when compressing models without retraining, achieving 50% sparsity with minimal accuracy loss, or enabling faster inference on hardware accelerators. Covers unstructured pruning, structured pruning, N:M sparsity, magnitude pruning, and one-shot methods.

How to use

  1. Zainstaluj wymagane zależności: sklonuj repozytorium Wanda (https://github.com/locuslab/wanda), przejdź do katalogu i uruchom pip install -r requirements.txt. Opcjonalnie zainstaluj SparseGPT dla metod drugiego rzędu. Zainstaluj torch, transformers i accelerate poleceniem pip install torch transformers accelerate.

  2. Załaduj model do kompresji, na przykład Llama-2-7b, używając AutoModelForCausalLM.from_pretrained() z torch_dtype=torch.float16 i device_map="cuda" dla GPU. Załaduj odpowiadający tokenizer AutoTokenizer.from_pretrained().

  3. Przygotuj dane kalibracyjne — małą próbkę tekstu reprezentatywną dla Twojego przypadku użycia. Dane te będą użyte do obliczenia wag i aktywacji bez pełnego retrainingu modelu.

  4. Zastosuj pruning Wanda, która jest metodą one-shot nie wymagającą retrainingu. Wanda oblicza iloczyn wag i aktywacji, aby zidentyfikować mniej ważne neurony do usunięcia, osiągając docelowy poziom sparsity (np. 50%).

  5. Zweryfikuj dokładność skompresowanego modelu na zbiorze testowym. Metoda Wanda gwarantuje stratę dokładności poniżej 1% przy redukcji rozmiaru o 40–60%.

  6. Wdróż skompresowany model na docelowym sprzęcie — urządzeniach mobilnych, edge'owych lub serwerach z ograniczoną pamięcią. Sparsity umożliwia przyspieszenie inferecji dzięki wsparciu akceleratorów sprzętowych.

Related skills

solidity-security

by wshobson

Master smart contract security best practices to prevent common vulnerabilities and implement secure Solidity patterns. Use when writing smart contracts, auditing existing contracts, or implementing security measures for blockchain applications.

Security
10105

reviewing-code

by CaptainCrouton89

Systematically evaluate code changes for security, correctness, performance, and spec alignment. Use when reviewing PRs, assessing code quality, or verifying implementation against requirements.

Security
1493

security-compliance

by davila7

Guides security professionals in implementing defense-in-depth security architectures, achieving compliance with industry frameworks (SOC2, ISO27001, GDPR, HIPAA), conducting threat modeling and risk assessments, managing security operations and incident response, and embedding

Security
1172

ui-audit

by openclaw

AI skill for automated UI audits. Evaluate interfaces against proven UX principles for visual hierarchy, accessibility, cognitive load, navigation, and more. Based on Making UX Decisions by Tommy Geoco.

Security
1223

google-analytics

by davila7

Analyze Google Analytics data, review website performance metrics, identify traffic patterns, and suggest data-driven improvements. Use when the user asks about analytics, website metrics, traffic analysis, conversion rates, user behavior, or performance optimization.

Security
1260

payload

by payloadcms

Use when working with Payload CMS projects (payload.config.ts, collections, fields, hooks, access control, Payload API). Use when debugging validation errors, security issues, relationship queries, transactions, or hook behavior.

Security
50171