从网页收集信息的最佳途径

我需要从几个网站获取信息。 例如, 这个网站什么是从页面获取所有链接的最好方法,以便可以提取信息。 有时需要点击一个链接来获取其中的其他链接。 我尝试了Watin,并尝试使用Web Data选项从Excel 2007中执行相同操作。 请你提出一些我不知道的更好的方法。

Ncrawler可能对深度爬行非常有用。 你也可以设置MaxCrawlDepth来指定相同的值。

看看WGet 。 这是一个非常强大的工具,用于挖掘单个页面或整个网站的内容。 可用选项允许您指定在链接方面深层次的关注程度,如何使用静态资源(如图像),如何处理相关链接等。它还可以非常好地挖掘dynamic生成的页面如CGI或ASP提供的服务。

在'nix世界里已经有很多年了,但是为Windows编译的可执行文件已经可用了。

您需要使用Process.Start从.NET中启动它,但是您可以通过捕获标准输出将结果传输到多个文件(模仿原始网站结构),单个文件或内存中。 然后,您可以执行后续分析,例如提取HREF HTML元素(如果它只是您感兴趣的链接),或者抓取您在问题中提供的链接中显示的那种表格数据。

我认识到这不是一个“纯”的.NET解决scheme,但是我认为WGET提供的function不仅仅是补偿。 过去我曾经用过这种方式,就像我想你正在做的那样。

我build议使用http://watin.org/ 。 这比wget简单得多:-)