如何将网站数据抓取到Excel工作表?

我是一个新手程序员,试图编写所有inc5000公司及其行业,地点,收入和首席执行官的Excel列表。 有没有什么办法让我自动化,这样我就不必手动input全部5000个了?

一些问题:

– inc5000列表只显示一个页面上的50家公司,滚动到下一页不会更改URL。 我尝试将URL转换为HTML,但没有任何元数据实际显示在HTML代码中(我使用https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g )。

– 我需要的所有信息都在这个滚动页面上( https://www.inc.com/profile/loot-crate ),但是当您浏览页面时,每个公司的URL会发生变化。 有没有办法从这个网站抓取数据,而无需手动更改5000个URL?

我对编程非常陌生,对HTML / JavaScript / Webdevise几乎一无所知 – 我只知道基本的Java。 我真的很感谢任何帮助或潜在的线索到一个解决scheme。

这是简单的方法:

转到页面,按f12,进入debugging工具的“networking”选项卡,selectXHR(仅筛选数据调用),然后滚动到页面底部。 该页面为每个公司查询,您可以在debugging工具中访问。

一旦你有所有的页面,你可以突出显示文件名列表中的所有行左侧,右键单击,并将其保存到.har文件。

从那里,只需写一个脚本来拉出JSON,然后就可以了。

在这里输入图像说明