crawl4ai
This skill should be used when users need to scrape websites, extract structured data, handle JavaScript-heavy pages, crawl multiple URLs, or build automated web data pipelines. Includes optimized extraction patterns with schema generation for efficient, LLM-free extraction.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
This skill should be used when users need to scrape websites, extract structured data, handle JavaScript-heavy pages, crawl multiple URLs, or build automated web data pipelines. Includes optimized extraction patterns with schema generation for efficient, LLM-free extraction.
How to use
Sprawdź instalację Crawl4AI, uruchamiając w terminalu komendę
crawl4ai-doctor. Jeśli pojawią się błędy, uruchomcrawl4ai-setupaby uzupełnić konfigurację.Dla prostego pobierania strony użyj gotowego skryptu:
python scripts/basic_crawler.py https://twoja-strona.com. Skrypt wyodrębni zawartość w formacie markdown.Jeśli chcesz przetwarzać wiele adresów URL, przygotuj plik tekstowy z listą linków (jeden URL na linię) i uruchom
python scripts/batch_crawler.py urls.txt.Do ekstrakcji strukturalnych danych (np. produktów z e-sklepu) użyj pipeline'u z automatycznym generowaniem schematu:
python scripts/extraction_pipeline.py --generate-schema https://sklep.com "ekstrahuj produkty".W kodzie Python zaimportuj AsyncWebCrawler, skonfiguruj zachowanie przeglądarki (headless mode, rozmiar okna, timeout) i wykonaj crawl za pomocą metody
arun()z adresem URL.Dostosuj ustawienia crawlingu poprzez CrawlerRunConfig — możesz włączyć screenshoty, usunąć elementy nakładające się (popupy), lub zmienić timeout strony.