前言
现有技术选型
我搜集了一些解决方案,要逐一对比看哪个方案更好
方案对比
对比维度:
转化效果,对GPU的依赖程度,转化速度
minerU
GPU的占用情况
效果如下:
识别效果是真的好,markdown由于排版限制,文本表现可能不好,但是对大模型来说足够了
LINK如下:
MonkeyOCR
环境挺复杂的,直接用docker拉起来吧
GPU的占用情况
对显存的压力很大
排版的效果也还行,但是目录的层次结构不够清晰,而且出现了部分项重复

OCR识别出的结果出现了大量的重复,4-MAC地址标签1CFI标准服务Onboard网络卡4-MAC 出现大约10多次的重复
表格布局上比较不错,转化的速度也比较快,有较强的适应性,但是环境配置复杂且占用资源太高了【官方的模型会自动根据你的显存大小来调整占用】