tabstack-extractor
Extract structured data from websites using Tabstack API. Use when you need to scrape job listings, news articles, product pages, or any structured web content. Provides JSON schema-based extraction and clean markdown conversion. Requires TABSTACK_API_KEY environment variable.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Extract structured data from websites using Tabstack API. Use when you need to scrape job listings, news articles, product pages, or any structured web content. Provides JSON schema-based extraction and clean markdown conversion. Requires TABSTACK_API_KEY environment variable.
How to use
Zainstaluj Babashka, narzędzie wymagane do uruchomienia skilla. Wybierz jedną z trzech opcji: pobierz ze strony GitHub (curl -s https://raw.githubusercontent.com/babashka/babashka/master/install | bash), zainstaluj przez Nix (nix-shell -p babashka) lub przez Homebrew (brew install borkdude/brew/babashka).
Uzyskaj klucz API Tabstack, rejestrując się na stronie https://console.tabstack.ai/signup. Następnie ustaw zmienną środowiskową poleceniem export TABSTACK_API_KEY="twoj_klucz_api_tutaj" lub zapisz klucz w pliku konfiguracyjnym ~/.config/tabstack/config.edn w formacie {:api-key "twoj_klucz_api_tutaj"}.
Przetestuj połączenie z API, uruchamiając bb scripts/tabstack.clj test. Polecenie powinno potwierdzić, że klucz API jest poprawnie skonfigurowany.
Wyciągnij dane w formacie markdown z dowolnej strony internetowej, używając polecenia bb scripts/tabstack.clj markdown "https://przyklad.com". Wynik będzie zawierać czytelny tekst bez HTML.
Wyciągnij dane w formacie JSON, definiując własny schemat. Uruchom bb scripts/tabstack.clj json "https://przyklad.com" references/simple_article.json, gdzie plik JSON zawiera definicję struktury danych do pobrania. Zacznij od prostych schematów dla szybszych wyników.
Dla bardziej zaawansowanych scenariuszy użyj polecenia json-retry (bb scripts/tabstack.clj json-retry "https://przyklad.com" references/simple_article.json) do automatycznych ponownych prób w przypadku błędu, lub json-cache do cachowania wyników przez 24 godziny.