admin 管理员组

文章数量: 1103806

大家好,今天给大家分享的是一个开源的快速准确地将 PDF 转换为 markdown工具。

Marker是一款功能强大的PDF转换工具,它能够将PDF文件快速、准确地转换为Markdown格式。这款工具特别适合处理书籍和科学论文,支持所有语言的转换,并且能够去除页眉、页脚等干扰元素,格式化表格和代码块,提取并保存图像和Markdown文件,并将大部分方程式转换为LaTeX格式。

功能简介

Marker:重新定义 PDF 到 Markdown 的转换效率。

•Marker 满足了将复杂的 PDF 文档转换为 markdown 以便于管理的日益增长的需求。

•传统的文本转换器难以维持原始布局、格式和内容的准确性。

•Marker 擅长准确地保存表格、代码块和数学方程式等复杂元素。

•自动去除文档中的非主要元素,如页眉和页脚。

•它能够以优化的处理速度和资源使用率有效地处理大量数据。

•Marker 的定制方法减少了数字 PDF 对 OCR 的依赖,从而实现了更快、更精确的转换。

•可以在GPU、CPU或MPS上运行。

实现原理

Marker的工作原理基于深度学习模型。它首先通过OCR技术(如果需要的话)提取文本(采用启发式算法和 tesseract 工具),然后检测页面布局并确定阅读顺序(使用 布局分割器[1] 和 列检测器[2])。接下来,Marker会对每个文本块进行清洁和格式化处理(运用启发式算法和 nougat[3]),最后将所有块合并并进行后处理,生成完整的Markdown文本(利用启发式算法和 pdf后处理器[4])。Marker只在必要时使用模型,从而提高了转换速度和准确性。

性能表现

本文标签: 转换为 开源 准确 快速 工具