add-archon-model
Guide for adding a new model to the Archon engine. Use when user wants to add support for a new HuggingFace model architecture in ArchonEngine.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Guide for adding a new model to the Archon engine. Use when user wants to add support for a new HuggingFace model architecture in ArchonEngine.
How to use
Sprawdź, czy model docelowy jest dostępny na HuggingFace i posiada plik config.json z polem model_type, oraz upewnij się, że znasz jego identyfikator (np. meta-llama/Llama-3-8B).
Przeanalizuj architekturę modelu, pobierając jego config.json za pomocą AutoConfig.from_pretrained i identyfikując kluczowe parametry: model_type, hidden_size, num_layers oraz wszelkie pola specyficzne dla danego modelu (np. qk_norm, attention_bias, pola MoE).
Zbadaj plik modeling_*.py z repozytorium HuggingFace, aby zidentyfikować warianty: typ uwagi (Q/K norm, bias, sliding window), typ FFN (SwiGLU, GeGLU, standardowy MLP), obsługę MoE, wariant RoPE (standard, YaRN, NTK-aware scaling), typ normalizacji (RMSNorm czy LayerNorm, pre-norm czy post-norm) oraz weight tying.
Wyodrębnij nazwy kluczy słownika stanu (state dict) z pliku modeling_*.py, aby zrozumieć strukturę parametrów modelu i mapowanie warstw.
Utwórz nową specyfikację modelu (ModelSpec) w Archon, rejestrując wszystkie wyodrębnione parametry hiperparametrów i warianty architektoniczne zgodnie ze schematem Archon.
Przetestuj integrację, ładując model z HuggingFace i weryfikując, że wszystkie parametry są prawidłowo mapowane i model może być trenowany w silniku Archon.