在itextSharp中使用LocationTextExtractionStrategy作为文本坐标
我的目标是从可能在表结构中的PDF中检索数据到excel文件。
使用iTextSharp的LocationTextExtractionStrategy,我们可以以纯文本的forms获取string数据,页面内容从左到右。
我怎样才能前进呢?
PdfTextExtractor.GetTextFromPage(reader,i,new LocationTextExtractionStrategy())
我可以让文本在结果string中保留其坐标。
例如,如果pdf中的第一行有文本alignment到右侧,则结果string必须包含尾随空格或空格,以保持内容右alignment。
请提出一些build议,我将如何着手实现。
了解PDF 不支持表格非常重要。 任何看起来像一张桌子的东西,实际上只是一堆放在线条背景的特定位置上的文字。 这是非常重要的,你在工作时需要牢记这一点。
也就是说,您需要GetTextFromPage()
TextExtractionStrategy
并将其传递到GetTextFromPage()
。 看到这个post的一个简单的例子。 然后看到这个post的一个更复杂的子类化的例子。 后者与你的目标并不完全相关,但它确实显示了一些你可以做的更复杂的事情。