提取PDF文档的特定部分

我有多个（30）PDF文件，每个包含48-96页。所有页面的布局是相同的，只有其他内容（数字，graphics）。

背景：这些页面是光纤电缆测量的PDF报告，我必须通过电缆的衰减对它们进行分类。由于机密问题，我不幸举例不了文件。

为了validation这些报告，我们正在做一些控制样本，这就是为什么我需要sorting的报告。现在的问题是：我如何才能将所有pdf文件中的所有页面的特定部分导出为我可以sorting的格式？

如前所述，这些值在页面上的位置非常具体。它也是“parsing”的内容，所以它在PDF文件中可以“作为文本”使用，所以它不被扫描，不需要OCR。

任何帮助表示赞赏。我目前不知道如何解决这个问题，它可能是一些类似的工具，或编程方法来解决这个问题。

正如您在对原始问题的评论中指出的那样，您已准备好编制解决scheme。我会build议使用Java和iText PDF库。它使您能够从文档中提取文本，只要文本实际上是可提取的（您实际上可以将字形放入PDF中，但将字形映射从字形中删除）。

您可以在iText in Action – 第2版的第15章的ExtractPageContent *示例中findiText的PDF文本提取示例代码。特别是ExtractPageContentArea在你的情况下是有趣的。

本质上，你只需要采取这个样本，并概括它也从页面上的多个区域提取文本。

Interesting Posts

将excel电子表格转换为HTML

将二进制文件转换为excel文件

在Excel中将excel文件转换为jpg

在VBA中search包含小数的数字的string

C＃将csv转换为xls（使用现有的csv文件）

无法使用Microsoft.Office.Interop将Excel文件转换为PDF文件

使用C＃代码将Excel数据转换为CSV时出错

如何使用json数据格式化csv文件？

如何在Excel中将带“下标”分数的数字转换为小数？

如何使用Excel打开SAS文件？