用javaparsing网页到excel和使用超链接

我对Apache POI和Jsoup非常陌生,我感到非常困惑。 我试图parsing这个文件到Excel中:

在这里输入图像说明

我希望每一列都是我excel电子表格中的一列。 “数据文件”,“Stata数据文件”和“字典”列中的条目是按下时下载.zip文件的超级链接。 我知道Apache POI可以创build超链接,但它可以parsing这些现有的超链接到Excel吗? 此外,这些数据是从网页,而不是一个特定的文件,所以这甚至可能与Java?

有人能指出我正确的方向吗? 如果这个项目是可能的,使用POI或Jsoup会更好吗? 谢谢!

你应该把这个任务分成两个步骤,你将需要Jsoup和POI,因为他们解决了不同的问题。

  1. 抓取网页并parsing(Jsoup)
  2. 将parsing的结果写入Excel电子表格(POI)

1)您可以使用Jsoup来获取和parsing网页, Jsoup Cookbook有许多简单的例子可以做到这一点。 你可以例如:

Document doc = Jsoup.connect("http://example.com/").get(); // Grab page Element table = doc.getElementById("my-table"); // Get table with id "my-table" 

通过使用select器,您可以读取所需的数据,并将其写入POJO或您真正喜欢的任何位置。

2)一旦你有需要的数据,你可以使用POI创build一个Excel电子表格。

繁忙的开发人员指南显示如何写入Excel表格以及如何创build超链接 。

创build超链接的要点是:

 Workbook wb = new XSSFWorkbook(); CreationHelper createHelper = wb.getCreationHelper(); Sheet sheet = wb.createSheet("Test sheet"); Cell cell = sheet.createRow(0).createCell((short)0); cell.setCellValue("URL Link"); // Text that will be shown, eg AL2015 Hyperlink link = createHelper.createHyperlink(Hyperlink.LINK_URL); link.setAddress("http://poi.apache.org/"); // Set actual hyperlink URL cell.setHyperlink(link); // Add hyperlink to cell