nanogpt
Educational GPT implementation in ~300 lines. Reproduces GPT-2 (124M) on OpenWebText. Clean, hackable code for learning transformers. By Andrej Karpathy. Perfect for understanding GPT architecture from scratch. Train on Shakespeare (CPU) or OpenWebText (multi-GPU).
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Educational GPT implementation in ~300 lines. Reproduces GPT-2 (124M) on OpenWebText. Clean, hackable code for learning transformers. By Andrej Karpathy. Perfect for understanding GPT architecture from scratch. Train on Shakespeare (CPU) or OpenWebText (multi-GPU).
How to use
Zainstaluj wymagane biblioteki: torch, numpy, transformers, datasets, tiktoken, wandb i tqdm za pomocą pip install.
Przygotuj dane treningowe, uruchamiając skrypt przygotowujący dane dla Shakespeare'a: python data/shakespeare_char/prepare.py. Ten krok tworzy pliki train.bin i val.bin.
Uruchom trening modelu za pomocą konfiguracji dla Shakespeare'a: python train.py config/train_shakespeare_char.py. Trening na CPU zajmuje około 5 minut. Konfiguracja zawiera 6 warstw transformera, 6 głowic atencji, 384-wymiarowe embeddingi i kontekst 256 znaków.
Po zakończeniu treningu wygeneruj tekst za pomocą: python sample.py --out_dir=out-shakespeare-char. Model będzie generować nowe sekwencje w stylu Shakespeare'a na podstawie nauczonych wzorców.
Eksperymentuj z parametrami treningu — zmień learning_rate, batch_size lub max_iters w pliku konfiguracyjnym, aby zobaczyć, jak wpływają na jakość modelu i szybkość zbieżności.