从PDFsearchlogging页码的有效方法

我有一个约1200个查询(部件号)的列表,指定在100页的PDF页面内。 几乎我需要做的就是logging每个查询出现在PDF页面上的页面。 我想不出一个聪明的做法。 它应该花费我5-20个小时来search这个search,所以如果有人能在5小时之前给我一个好主意,那将是非常棒的!

假设您可以从纯文本(例如,使用正则expression式)编程地确定您的上下文中的“查询”是什么:

您可以使用pdftk将您的PDF分成不同的文件(每页1个文件)

http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

然后将这些文件转换为文本,使用如下所示的pdf-to-text工具:

http://www.fileguru.com/PDF-To-TXT-Converter/download

或这一个

http://www.pdf2text.com/

最后,用自己喜欢的编程语言编写一个简单的脚本,以确定哪些文件包含“查询”(无论如何)。

Interesting Posts