M
mamba-architecture
State-space model with O(n) complexity vs Transformers' O(n²). 5× faster inference, million-token sequences, no KV cache. Selective SSM with hardware-aware design. Mamba-1 (d_state=16) and Mamba-2 (d_state=128, multi-head). Models 130M-2.8B on HuggingFace.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
State-space model with O(n) complexity vs Transformers' O(n²). 5× faster inference, million-token sequences, no KV cache. Selective SSM with hardware-aware design. Mamba-1 (d_state=16) and Mamba-2 (d_state=128, multi-head). Models 130M-2.8B on HuggingFace.
How to use
- Zainstaluj wymagane zależności: uruchom pip install mamba-ssm[causal-conv1d], aby pobrać bibliotekę Mamba wraz z opcjonalnym modułem causal-conv1d dla lepszej wydajności. Upewnij się, że masz system Linux, kartę NVIDIA GPU, PyTorch 1.12+ i CUDA 11.6+. 2. Zaimportuj moduł Mamba w swoim skrypcie Pythona: from mamba_ssm import Mamba oraz import torch. 3. Przygotuj dane wejściowe jako tensor PyTorch o kształcie (batch, length, dim) i przenieś go na GPU za pomocą .to("cuda"). 4. Utwórz instancję modelu Mamba, określając wymiary: d_model (wymiar ukryty), d_state (wymiar stanu SSM, zazwyczaj 16 dla Mamba-1 lub 128 dla Mamba-2), d_conv (rozmiar kernela konwolucji) i expand (współczynnik ekspansji). Przenieś model na GPU. 5. Uruchom forward pass, przekazując dane wejściowe do modelu: y = model(x). Wynik y będzie miał taki sam kształt jak wejście, przetworzony z liniową złożonością. 6. Dla bardziej zaawansowanego przypadku użytku (model języka z generacją) użyj MambaLMHeadModel i MambaConfig, konfigurując parametry takie jak liczba warstw, rozmiar słownika i typ SSM (Mamba2).