将PDF文件转换成Excel表格

林新.net,我有一个pdf,其中包含三个表(与购买的详细信息)我的任务是提取所有的3个表格,并将其转换成一个Excel表(三个Excel表)使用C#代码。我googled的3days,所有我能find的代码是从pdf中提取文本(但没有任何格式),我不能购买任何第三方工具,我需要一种方式,以至less提取适当的表格格式的文本,然后我将其转换为Excel使用互操作,或者直接转换为Excel的代码,无论我的急需解决scheme,请帮助。

itextpdf支持c#从pdf中提取信息,但是要回答我们可以提取表格的地方:

如上所述:如果从技术的angular度来看,PDF不是一种forms,那么您不能从PDF看起来像表单的字段。 如果PDF内部缺less表格结构(使用标签),则无法从类似于表格的PDF中获取表格。

我从他们的支持小组得到了什么

我build议你看看xpdf 。 它有一个命令行界面,你可以从你的pdf获得一个文本文件。 最重要的是,在列的情况下,xpdf生成一个很好的文本文件,所以你可以很容易地阅读你的数据使用Substring()或在最坏的情况下,正则expression式。 在最简单的情况下,您可以直接将PDF输出导入到Excel中作为带有“固定宽度字段”的文本文件。