在itextSharp中使用LocationTextExtractionStrategy作为文本坐标

我的目标是从可能在表结构中的PDF中检索数据到excel文件。

使用iTextSharp的LocationTextExtractionStrategy，我们可以以纯文本的forms获取string数据，页面内容从左到右。

我怎样才能前进呢？

PdfTextExtractor.GetTextFromPage（reader，i，new LocationTextExtractionStrategy（））

我可以让文本在结果string中保留其坐标。

例如，如果pdf中的第一行有文本alignment到右侧，则结果string必须包含尾随空格或空格，以保持内容右alignment。

请提出一些build议，我将如何着手实现。

了解PDF 不支持表格非常重要。任何看起来像一张桌子的东西，实际上只是一堆放在线条背景的特定位置上的文字。这是非常重要的，你在工作时需要牢记这一点。

也就是说，您需要GetTextFromPage() TextExtractionStrategy并将其传递到GetTextFromPage() 。看到这个post的一个简单的例子。然后看到这个post的一个更复杂的子类化的例子。后者与你的目标并不完全相关，但它确实显示了一些你可以做的更复杂的事情。

在itextSharp中使用LocationTextExtractionStrategy作为文本坐标

如果声明在图表范围

Excel根据用户更改范围内的另一个单元格更新范围中的单元格值

在列中查找具有值“0”的行，然后在具有上述行的SUM行中查找

如何在生成Excel（xlsx）时在列之前设置一行

错误与Excel嵌套，如果函数

在R中以横向格式创build一个excel文件

在R中迭代化合物返回（如Excel产品function）

Talend DI改变Excel单元格颜色

将格式化的表格从excel粘贴到ppt表示的macros会不正常地崩溃

闲置后closuresExcel，即使在编辑模式下也是如此