ocr-image-to-markdown

Name: ocr-image-to-markdown
Author: hugohe3

by hugohe3

鉴于本地 OCR 工具的缺失，本技能利用 Agent 的多模态能力来查看图像（PNG, JPG 等）并将内容（文本、表格、逻辑图）转录为格式化的 Markdown。

Installation

Pick a client and clone the repository into its skills directory.

Installation

Quick info

Author: hugohe3
Category: Data Science
Views: 25

GitHub repo

About this skill

鉴于本地 OCR 工具的缺失，本技能利用 Agent 的多模态能力来查看图像（PNG, JPG 等）并将内容（文本、表格、逻辑图）转录为格式化的 Markdown。

How to use

Zlokalizuj obraz, który chcesz przetworzyć. Jeśli potrzebujesz przejrzeć katalog, użyj polecenia list_dir aby wyświetlić dostępne pliki.
Wyświetl zawartość obrazu za pomocą view_file wskazując ścieżkę do pliku. To pozwala modelowi wizyjnemu przeanalizować obraz bezpośrednio.
Transkrybuj zawartość do Markdown na podstawie tego, co widzisz. Dla tabel użyj standardowego formatu Markdown (| nagłówek | ... |), dla nagłówków użyj #, ## itd. zachowując hierarchię, a tekst zwykły transkrybuj jako paragrafy. Zwróć szczególną uwagę na dokładność liczb, szczególnie w dokumentach finansowych.
Jeśli obraz zawiera złożony układ (np. kolumny obok siebie), czytaj logicznie od góry do dołu, od lewej do prawej. Dla diagramów opisz trendy lub wyodrębnij widoczne punkty danych jako listę lub tabelę.
Zapisz transkrybowaną zawartość do pliku Markdown za pomocą write_to_file. Jeśli przetwarzasz wiele obrazów, możesz dołączać wyniki do tego samego pliku lub organizować je logicznie w osobnych plikach.
Nie próbuj pisać kodu ani używać bibliotek Pythona (pytesseract, easyocr, PIL) — polegaj wyłącznie na zdolności wizualnej agenta do bezpośredniego odczytania obrazu.

Related skills

arxiv-search

by langchain-ai

Search arXiv preprint repository for papers in physics, mathematics, computer science, quantitative biology, and related fields

Data Science

76172

openrouter

by rawveg

OpenRouter API - Unified access to 400+ AI models through one API

Data Science

17138

skill-installer

by openai

Install Codex skills into $CODEX_HOME/skills from a curated list or a GitHub repo path. Use when a user asks to list installable skills, install a curated skill, or install a skill from another repo (including private repos).

Data Science

23118

deepwiki-rs

by sopaco

AI-powered Rust documentation generation engine for comprehensive codebase analysis, C4 architecture diagrams, and automated technical documentation. Use when Claude needs to analyze source code, understand software architecture, generate technical specs, or create professional

Data Science

18144

moon-dev-trading-agents

by moondevonyt

Master Moon Dev's Ai Agents Github with 48+ specialized agents, multi-exchange support, LLM abstraction, and autonomous trading capabilities across crypto markets

Data Science

102232

pptx

by anthropics

Presentation creation, editing, and analysis. When Claude needs to work with presentations (.pptx files) for: (1) Creating new presentations, (2) Modifying or editing content, (3) Working with layouts, (4) Adding comments or speaker notes, or any other presentation tasks

Data Science

134310