nnsight-remote-interpretability
Provides guidance for interpreting and manipulating neural network internals using nnsight with optional NDIF remote execution. Use when needing to run interpretability experiments on massive models (70B+) without local GPU resources, or when working with any PyTorch
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Provides guidance for interpreting and manipulating neural network internals using nnsight with optional NDIF remote execution. Use when needing to run interpretability experiments on massive models (70B+) without local GPU resources, or when working with any PyTorch architecture.
How to use
Zainstaluj nnsight i jego zależności: upewnij się, że masz PyTorch w wersji 2.0.0 lub wyższej oraz nnsight w wersji 0.5.0 lub wyższej dostępne w swoim środowisku Python.
Załaduj model PyTorch, z którym chcesz pracować — może to być dowolna architektura, od transformerów po Mambę czy modele niestandardowe.
Użyj kontekstu trace() do przechwycenia aktywacji: otwórz blok
with model.trace(prompt)i wskaż warstwy oraz tensory, które chcesz zapisać za pomocą.save(). Na przykładmodel.transformer.h[5].output[0].save()przechwyci wyjście piątej warstwy.Aby uruchomić eksperyment lokalnie na małym modelu, pozostaw domyślne ustawienia. Dla dużych modeli (70B+) dodaj parametr
remote=Truedo trace(), co automatycznie przesyła obliczenia na zdalne zasoby NDIF.Wykonaj interwencje na aktywacjach — możesz modyfikować wartości, przeprowadzać eksperymenty ablacyjne lub dzielić aktywacje między różne prompty, wszystko w ramach tego samego bloku trace().
Wyodrębnij wyniki z obiektu zwróconego przez trace() i analizuj uzyskane tensory — nnsight zwraca pełny dostęp do wewnętrznych stanów modelu bez konieczności reimplementacji.