transformer-lens-interpretability
Provides guidance for mechanistic interpretability research using TransformerLens to inspect and manipulate transformer internals via HookPoints and activation caching. Use when reverse-engineering model algorithms, studying attention patterns, or performing activation patching
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Provides guidance for mechanistic interpretability research using TransformerLens to inspect and manipulate transformer internals via HookPoints and activation caching. Use when reverse-engineering model algorithms, studying attention patterns, or performing activation patching experiments.
How to use
Zainstaluj TransformerLens za pomocą pip install transformer-lens. Jeśli chcesz pracować z najnowszą wersją ze źródła, użyj pip install git+https://github.com/TransformerLensOrg/TransformerLens.
Zaimportuj HookedTransformer — główną klasę, która opakowuje modele transformerów i udostępnia HookPoints na każdej aktywacji. To jest punkt wejścia do wszystkich badań interpretowalności.
Wybierz cel badań: jeśli chcesz odtwarzać algorytmy nauczone podczas treningu, używaj activation patchingu i causal tracing. Jeśli interesują cię wzorce uwagi i przepływ informacji, skoncentruj się na analizie attention patterns.
Wykorzystaj HookPoints do inspektowania pośrednich aktywacji modelu. Możesz cachować aktywacje i manipulować nimi, aby zrozumieć, które części sieci są odpowiedzialne za konkretne zachowania.
Przeprowadź eksperymenty circuit analysis — analizuj obwody takie jak induction heads lub IOI circuit, aby odkryć, jak model przetwarza informacje na poziomie mechanistycznym.
Jeśli pracujesz z architekturami innymi niż transformery, rozważ alternatywy: nnsight lub pyvene dla bardziej ogólnych podejść, SAELens dla Sparse Autoencoderów, lub nnsight z NDIF dla zdalnego wykonania na dużych modelach.