在itextSharp中使用LocationTextExtractionStrategy作为文本坐标

我的目标是从可能在表结构中的PDF中检索数据到excel文件。

使用iTextSharp的LocationTextExtractionStrategy,我们可以以纯文本的forms获取string数据,页面内容从左到右。

我怎样才能前进呢?

PdfTextExtractor.GetTextFromPage(reader,i,new LocationTextExtractionStrategy())

我可以让文本在结果string中保留其坐标。

例如,如果pdf中的第一行有文本alignment到右侧,则结果string必须包含尾随空格或空格,以保持内容右alignment。

请提出一些build议,我将如何着手实现。

了解PDF 不支持表格非常重要。 任何看起来像一张桌子的东西,实际上只是一堆放在线条背景的特定位置上的文字。 这是非常重要的,你在工作时需要牢记这一点。

也就是说,您需要GetTextFromPage() TextExtractionStrategy并将其传递到GetTextFromPage() 。 看到这个post的一个简单的例子。 然后看到这个post的一个更复杂的子类化的例子。 后者与你的目标并不完全相关,但它确实显示了一些你可以做的更复杂的事情。