提取PDF文档的特定部分

我有多个(30)PDF文件,每个包含48-96页。 所有页面的布局是相同的,只有其他内容(数字,graphics)。

背景:这些页面是光纤电缆测量的PDF报告,我必须通过电缆的衰减对它们进行分类。 由于机密问题,我不幸举例不了文件。

为了validation这些报告,我们正在做一些控制样本,这就是为什么我需要sorting的报告。 现在的问题是:我如何才能将所有pdf文件中的所有页面的特定部分导出为我可以sorting的格式?

如前所述,这些值在页面上的位置非常具体。 它也是“parsing”的内容,所以它在PDF文件中可以“作为文本”使用,所以它不被扫描,不需要OCR。

任何帮助表示赞赏。 我目前不知道如何解决这个问题,它可能是一些类似的工具,或编程方法来解决这个问题。

正如您在对原始问题的评论中指出的那样,您已准备好编制解决scheme。 我会build议使用Java和iText PDF库。 它使您能够从文档中提取文本,只要文本实际上是可提取的(您实际上可以将字形放入PDF中,但将字形映射从字形中删除)。

您可以在iText in Action – 第2版的 第15章的ExtractPageContent *示例中findiText的PDF文本提取示例代码。 特别是ExtractPageContentArea在你的情况下是有趣的。

本质上,你只需要采取这个样本,并概括它也从页面上的多个区域提取文本。