K
kreuzberg
Extract text, tables, metadata, and images from 75+ document formats (PDF, Office, images, HTML, email, archives, academic) using Kreuzberg. Use when writing code that calls Kreuzberg APIs in Python, Node.js/TypeScript, Rust, or CLI. Covers installation, extraction (sync/async),
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Extract text, tables, metadata, and images from 75+ document formats (PDF, Office, images, HTML, email, archives, academic) using Kreuzberg. Use when writing code that calls Kreuzberg APIs in Python, Node.js/TypeScript, Rust, or CLI. Covers installation, extraction (sync/async), configuration (OCR, chunking, output format), batch processing, error handling, and plugins.
How to use
- Zainstaluj Kreuzberg dla wybranego języka programowania: w Pythonie uruchom
pip install kreuzberg, opcjonalnie dodaj backend OCR (pip install kreuzberg[easyocr]); w Node.js wykonajnpm install @kreuzberg/node; w Rust-u dodaj do Cargo.toml zależnośćkreuzbergz wersją 4 i wymaganymi funkcjami (np.tokio-runtimedo przetwarzania synchronicznego i wsadowego). 2. Przygotuj dokument do przetworzenia — obsługiwane są pliki PDF, dokumenty Office, obrazy, HTML, e-maile i archiwa. 3. Napisz kod wywołujący API Kreuzberg — w Pythonie użyjextract_file()z parametrem ścieżki do pliku, w Node.js analogicznie wywołaj funkcję ekstraktora z biblioteki. 4. Skonfiguruj opcje ekstrakcji zgodnie z potrzebami: włącz OCR dla skanów, ustaw format wyjściowy, skonfiguruj dzielenie tekstu na fragmenty lub wykrywanie języka. 5. Obsługuj wynik — dostęp do wyodrębnionego tekstu przezresult.content, metadanych i obrazów zwróconych w strukturze wyniku. 6. Dla przetwarzania wielu plików użyj funkcji przetwarzania wsadowego dostępnej w bibliotece, opcjonalnie implementując niestandardowe wtyczki post-procesorów lub walidatorów.