ocr-image-to-markdown
鉴于本地 OCR 工具的缺失,本技能利用 Agent 的多模态能力来查看图像(PNG, JPG 等)并将内容(文本、表格、逻辑图)转录为格式化的 Markdown。
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
鉴于本地 OCR 工具的缺失,本技能利用 Agent 的多模态能力来查看图像(PNG, JPG 等)并将内容(文本、表格、逻辑图)转录为格式化的 Markdown。
How to use
Zlokalizuj obraz, który chcesz przetworzyć. Jeśli potrzebujesz przejrzeć katalog, użyj polecenia
list_diraby wyświetlić dostępne pliki.Wyświetl zawartość obrazu za pomocą
view_filewskazując ścieżkę do pliku. To pozwala modelowi wizyjnemu przeanalizować obraz bezpośrednio.Transkrybuj zawartość do Markdown na podstawie tego, co widzisz. Dla tabel użyj standardowego formatu Markdown (
| nagłówek | ... |), dla nagłówków użyj#,##itd. zachowując hierarchię, a tekst zwykły transkrybuj jako paragrafy. Zwróć szczególną uwagę na dokładność liczb, szczególnie w dokumentach finansowych.Jeśli obraz zawiera złożony układ (np. kolumny obok siebie), czytaj logicznie od góry do dołu, od lewej do prawej. Dla diagramów opisz trendy lub wyodrębnij widoczne punkty danych jako listę lub tabelę.
Zapisz transkrybowaną zawartość do pliku Markdown za pomocą
write_to_file. Jeśli przetwarzasz wiele obrazów, możesz dołączać wyniki do tego samego pliku lub organizować je logicznie w osobnych plikach.Nie próbuj pisać kodu ani używać bibliotek Pythona (pytesseract, easyocr, PIL) — polegaj wyłącznie na zdolności wizualnej agenta do bezpośredniego odczytania obrazu.