PDF和Excel数据刮擦

我正在做一个小数据抓取，有三种types的文件，我从中抓取数据。

1- HTML
2- PDF
3- Excel（xls）

对于HTML我很舒服，我正在使用HTML敏捷。

对于PDF和Excel，我需要任何人的build议。

提前致谢。

关于Excel。如果您处于MS环境中，则可以执行Office自动化或使用OLEDB。在Java环境中查看Apache POI。

编辑：关于在Java中的PDF尝试Apache PDFBox 。也可以使用IKVM在.NET中工作

我可以推荐Cogniview的PDF2XL ，一个相当便宜的商业产品，从PDF表格中提取数据到Excel中。我们用它取得了巨大的成功。

HTML敏捷是一个库。它很好用。但是，那么为什么你需要单独的工具来提取不同的数据呢？使用Automation Anywhere从任何来源提取数据。据我所知，这将适用于你指定的三个来源。去谷歌上查询。

你可以使用UiPath来实现这一点。它可以抓取100％准确的PDF，Excel，HTML，Java，Windows，.NET，WPF，遗产。也适用于基于虚拟化的环境，但只能通过OCR抓取。

可以使用代码（SDK），但也可以使用UiPath Studio创build可视自动化（工作stream程）。这里是关于Web数据提取的教程

注意：我在UiPath工作，所以我知道它可以完成这项工作。您还应该尝试其他可视化自动化工具，例如Automation Anywhere，WinAutomation，Jacada，并排使用它们并select最适合您的工具。