PDF和Excel数据刮擦

我正在做一个小数据抓取,有三种types的文件,我从中抓取数据。

1- HTML
2- PDF
3- Excel(xls)

对于HTML我很舒服,我正在使用HTML敏捷。

对于PDF和Excel,我需要任何人的build议。

提前致谢。

关于Excel。 如果您处于MS环境中,则可以执行Office自动化或使用OLEDB。 在Java环境中查看Apache POI。

编辑:关于在Java中的PDF尝试Apache PDFBox 。 也可以使用IKVM在.NET中工作

我可以推荐Cogniview的PDF2XL ,一个相当便宜的商业产品,从PDF表格中提取数据到Excel中。 我们用它取得了巨大的成功。

HTML敏捷是一个库。 它很好用。 但是,那么为什么你需要单独的工具来提取不同的数据呢? 使用Automation Anywhere从任何来源提取数据。 据我所知,这将适用于你指定的三个来源。 去谷歌上查询。

你可以使用UiPath来实现这一点。 它可以抓取100%准确的PDF,Excel,HTML,Java,Windows,.NET,WPF,遗产。 也适用于基于虚拟化的环境,但只能通过OCR抓取。

可以使用代码(SDK),但也可以使用UiPath Studio创build可视自动化(工作stream程)。 这里是关于Web数据提取的教程

注意:我在UiPath工作,所以我知道它可以完成这项工作。 您还应该尝试其他可视化自动化工具,例如Automation Anywhere,WinAutomation,Jacada,并排使用它们并select最适合您的工具。