从PDF中提取数据并导入到Excel .NET中

有一个示例代码或实用工具,我可以用它来读取PDF文档,并将数据转换或导出到Excel文档?

我search时看到的大多数示例代码都将Excel转换为PDF。

问题是,PDF可能不保留任何电子表格types结构 – 它只是在页面上绘制的文本。 所以你不可能对结果感到满意,除非它是一个非常简单的页面。

您可以使用pdfsharp提取数据,并使用openxml sdk创build一个excel文件。 这样你就会得到你想要的。 这将需要一些工作,但不需要Excel或杂技演员或任何花钱。

优点:

  • 自由
  • 没有Excel对象模型
  • 只使用库
  • 你得到你想要的

缺点:

  • 花时间编码

我已经创build了一个解决scheme,它使用开源XPDF和VBA的组合,以结构化的格式将多个PDF文件的数据导入到Excel中。 它通过指定开始和结束文本模式以及使用可选replace提取文本来清理输出。 该解决scheme可以从http://www.business-spreadsheets.com/forum.asp?t=884免费下载

你唯一真正的select是寻找第三方解决scheme。 我怀疑你会find一个免费的SDK,可以让你做到这一点,简单的理由,这并不容易。 我会检查出固体文件和可能的一些Investintech的解决scheme 。

较新版本的Acrobat还提供了一些更高级的PDF到Excel提取function,因此Adobe的PDF库SDK也值得一看。