pdf2markdown-soution

  1. 前言
  2. 现有技术选型
  3. 方案对比
    1. minerU
    2. MonkeyOCR

前言

现有技术选型

我搜集了一些解决方案,要逐一对比看哪个方案更好

名称 是否开源 项目地址
markitdown microsoft/markitdown: Python tool for converting files and office documents to Markdown.
mupdf4llm
minerU opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
MonkeyOCR Yuliang-Liu/MonkeyOCR: A lightweight LMM-based Document Parsing Model

方案对比

对比维度:

转化效果,对GPU的依赖程度,转化速度

minerU

GPU的占用情况

image-20250912184735808

效果如下:

识别效果是真的好,markdown由于排版限制,文本表现可能不好,但是对大模型来说足够了

image-20250926111039802

LINK如下:

MonkeyOCR

环境挺复杂的,直接用docker拉起来吧

GPU的占用情况

对显存的压力很大

默认显卡最多占用

排版的效果也还行,但是目录的层次结构不够清晰,而且出现了部分项重复

OCR识别出的结果出现了大量的重复,4-MAC地址标签1CFI标准服务Onboard网络卡4-MAC 出现大约10多次的重复

image-20250913105641695

表格布局上比较不错,转化的速度也比较快,有较强的适应性,但是环境配置复杂且占用资源太高了【官方的模型会自动根据你的显存大小来调整占用】

github