table-extractor
Extract tables from PDFs with high accuracy using camelot - handles complex table structures
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Extract tables from PDFs with high accuracy using camelot - handles complex table structures
How to use
Przygotuj plik PDF zawierający tabele, które chcesz wyekstrahować. Możesz pracować z pojedynczymi stronami lub całymi dokumentami wielostronicowymi.
Przekaż plik do umiejętności, podając podstawową instrukcję, np. "Wyciągnij wszystkie tabele z tego PDF" lub "Pobierz tabelę ze strony 5 tego raportu".
Jeśli dokument zawiera tabele z widocznymi obramowaniami (linie, ramki), umiejętność automatycznie użyje metody lattice, która wykrywa tabele na podstawie linii i granic.
Dla tabel bez obramowania lub z tekstem pozycjonowanym w kolumnach, możesz poprosić o użycie metody stream, która analizuje rozmieszczenie tekstu. Przykład: "Wyciągnij tabele bezobramowe z tego dokumentu".
Wskaż konkretne strony, jeśli chcesz ograniczyć ekstrakcję – możesz podać pojedynczą stronę ("strona 1"), wiele stron ("strony 1, 3, 5") lub zakres ("strony 1-5").
Otrzymasz wyniki jako strukturyzowane dane (pandas DataFrames), które możesz następnie eksportować do formatu Excel, CSV lub innego wybranego formatu.