doc-parser
Parse complex documents with IBM's docling - handles tables, figures, and multi-column layouts
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Parse complex documents with IBM's docling - handles tables, figures, and multi-column layouts
How to use
Udostępnij dokument do parsowania – może to być plik PDF, Word (.docx), PowerPoint (.pptx), obraz (.png, .jpg) lub HTML. Narzędzie obsługuje zarówno dokumenty natywne, jak i zeskanowane.
Określ, co chcesz wyekstrahować – czy interesują Cię tabele, figury z podpisami, cały tekst czy struktura dokumentu. Możesz poprosić o konkretne elementy lub pełną analizę.
Umiejętność przetworzy dokument za pomocą docling i zwróci dane w formacie markdown lub strukturyzowanym. Tekst zostanie wyekstrahowany z zachowaniem oryginalnego układu, tabele będą czytelne, a figury zidentyfikowane.
Wykorzystaj wynik – skopiuj markdown do edytora, użyj danych do dalszej analizy lub zintegruj z innym procesem. Struktura dokumentu jest w pełni zachowana, co ułatwia pracę z wielokolumnowymi i złożonymi layoutami.
W razie potrzeby poproś o konwersję do innego formatu – umiejętność obsługuje eksport do markdown, co czyni dane uniwersalnymi i łatwymi do przetworzenia.