pdf-processing
Comprehensive PDF processing techniques for handling large files that exceed Claude Code's reading limits, including chunking strategies, text/table extraction, and OCR for scanned documents. Use when working with PDFs larger than 10-15MB or more than 30-50 pages.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Comprehensive PDF processing techniques for handling large files that exceed Claude Code's reading limits, including chunking strategies, text/table extraction, and OCR for scanned documents. Use when working with PDFs larger than 10-15MB or more than 30-50 pages.
How to use
Zainstaluj wymagane zależności: Python 3.8 lub nowszy, biblioteki PyPDF (≥3.0.0), PyMuPDF (≥1.23.0), pdfplumber (≥0.9.0), pdf2image (≥1.16.0) oraz pytesseract (≥0.3.10). Upewnij się, że masz dostęp do Tesseractu dla funkcjonalności OCR.
Przed przystąpieniem do pracy z plikiem PDF sprawdź, czy jego rozmiar nie przekracza bezpiecznych limitów. Użyj funkcji
is_pdf_too_large()z dokumentacji – jeśli plik jest większy niż 10 MB, przejdź do kroku 3. Jeśli jest mniejszy, możesz odczytać go bezpośrednio za pomocą narzędzia Read w Claude'a.Dla dużych plików zastosuj ekstrakcję tekstu za pomocą biblioteki PyMuPDF (fitz), która jest najszybsza. Funkcja
extract_text_fast()przetwarza wszystkie strony i zwraca pełny tekst dokumentu bez ryzyka awarii sesji.Jeśli dokument zawiera tabele lub wymaga precyzyjnej ekstrakcji strukturalnej, użyj biblioteki pdfplumber zamiast PyMuPDF – oferuje lepszą obsługę tabel i elementów strukturalnych.
Dla skanów lub dokumentów zawierających obrazy zamiast tekstu zastosuj OCR za pośrednictwem pytesseract. Najpierw konwertuj strony PDF na obrazy (pdf2image), a następnie uruchom rozpoznawanie tekstu.
Dla bardzo dużych plików (powyżej 50 stron) podziel PDF na mniejsze części przed ekstrakcją – technika chunking'u opisana w dokumentacji pozwala na przetwarzanie fragmentów bez przekroczenia limitów kontekstu Claude'a.