Toolverse
All skills

sparse-autoencoder-training

by davila7

Provides guidance for training and analyzing Sparse Autoencoders (SAEs) using SAELens to decompose neural network activations into interpretable features. Use when discovering interpretable features, analyzing superposition, or studying monosemantic representations in language

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author
davila7
Category
Security
Views
1

About this skill

Provides guidance for training and analyzing Sparse Autoencoders (SAEs) using SAELens to decompose neural network activations into interpretable features. Use when discovering interpretable features, analyzing superposition, or studying monosemantic representations in language models.

How to use

  1. Zainstaluj wymagane zależności: SAELens (wersja 6.0.0+), TransformerLens (2.0.0+) i PyTorch (2.0.0+). Umiejętność wymaga tych bibliotek do działania.

  2. Załaduj model języka, którego aktywacje chcesz analizować. SAELens pracuje z modelami obsługiwanymi przez TransformerLens, takimi jak popularne modele otwarte.

  3. Przygotuj dane treningowe — wybierz teksty reprezentatywne dla zachowań, które chcesz zbadać. SAE będzie uczyć się rozkładać aktywacje na podstawie tych danych.

  4. Skonfiguruj i wytrenuj rzadki autokoder, ustawiając parametry takie jak liczba cech, współczynnik rzadkości i współczynnik uczenia. Proces trenowania rozkłada gęste aktywacje na rzadkie, interpretowalne komponenty.

  5. Analizuj odkryte cechy — zbadaj, które neurony aktywują się dla konkretnych konceptów, jak superpozyja wpływa na reprezentacje i jakie bezpieczeństwo-istotne wzorce model wyuczył.

  6. Opcjonalnie wykonaj sterowanie cechami lub ablację — użyj odkrytych cech do modyfikacji zachowania modelu lub testowania przyczynowych wpływów na wyjście.

Related skills