从网页收集信息的最佳途径

我需要从几个网站获取信息。例如，这个网站什么是从页面获取所有链接的最好方法，以便可以提取信息。有时需要点击一个链接来获取其中的其他链接。我尝试了Watin，并尝试使用Web Data选项从Excel 2007中执行相同操作。请你提出一些我不知道的更好的方法。

Ncrawler可能对深度爬行非常有用。你也可以设置MaxCrawlDepth来指定相同的值。

看看WGet 。这是一个非常强大的工具，用于挖掘单个页面或整个网站的内容。可用选项允许您指定在链接方面深层次的关注程度，如何使用静态资源（如图像），如何处理相关链接等。它还可以非常好地挖掘dynamic生成的页面如CGI或ASP提供的服务。

在'nix世界里已经有很多年了，但是为Windows编译的可执行文件已经可用了。

您需要使用Process.Start从.NET中启动它，但是您可以通过捕获标准输出将结果传输到多个文件（模仿原始网站结构），单个文件或内存中。然后，您可以执行后续分析，例如提取HREF HTML元素（如果它只是您感兴趣的链接），或者抓取您在问题中提供的链接中显示的那种表格数据。

我认识到这不是一个“纯”的.NET解决scheme，但是我认为WGET提供的function不仅仅是补偿。过去我曾经用过这种方式，就像我想你正在做的那样。

我build议使用http://watin.org/ 。这比wget简单得多:-)

Interesting Posts

如何获得excel vsto c＃区域的大小（宽度和高度），不包括色带区域？

使用VBA通过C＃禁用在Excel中保存function

C＃导出到XLS问题

XElement节点和子节点

需要一个C ++库来将Excel文件从1995年转换为新的

Excel启动时加载项

Excel应用程序单例 – 只使用一个Excel应用程序实例而不退出的可能威胁？

Xceed Datagrid ExportToExcel .xml / .xls / .xlsx格式

不规则的System.Data.OleDb.OleDbException（0x80004005）：无效的参数问题

以编程方式将Excel 2003文件转换为2007+