PT-Perkasa-Pilar-Utama/ppu-pdf

Pdf utilities for text extraction in digital and convert scanned pdf into canvas.

/ 100

Emerging

Offers dual extraction modes via `PdfReader` (mupdfjs-based) and `PdfReaderLegacy` (pdfjs-dist) with precise bounding box and font metadata, plus LLM-optimized Token Object Notation encoding for structured data. Detects scan vs. digital PDFs and handles scanned documents through canvas rendering with integrated OCR via `ppu-paddle-ocr`, enabling reconstruction of searchable PDFs with invisible text overlays. Provides line-grouping post-processing and configurable DPI/viewport resizing for flexible PDF processing pipelines.

Available on npm.

Maintenance 13 / 25

Adoption 5 / 25

Maturity 18 / 25

Community 11 / 25

How are scores calculated?

Stars

Forks

Language

TypeScript

License

MIT

Higher-rated alternatives

joungminsung/OpenDocuments

Self-hosted open-source RAG platform that unifies organizational documents and answers natural...

osllmai/inDox

The Indox Ecosystem offers integrated AI tools for data workflows. Our four components...

pega2077/ai_file_manager

AIFileManager--AI based file manager. Auto tag,classify,rag your documents,images,videos

Harry-027/DocuMind

A document based RAG application

kbrisso/byte-vision

Byte-Vision is a privacy-first document intelligence platform that transforms static documents...

Explore RAG Tools

All categories Trending RAG directory Insights