从一组HTML文件中提取表格内容的最佳方法是什么?

用TIDY清理一个完整的HTML文件的文件夹后,如何提取表格内容以便进一步处理?

取决于你想要做什么样的处理。 您可以告诉Tidy生成XHTML,这是一种XML,这意味着您可以在结果中使用所有常用的XML工具,如XSLT和XQuery。

如果你想在Microsoft Excel中处理它们,那么你应该能够从HTML中切出表格,并把它放在一个文件中,然后在Excel中打开这个文件:它将愉快地将HTML表格转换成电子表格页面。 然后,您可以将其另存为CSV或Excel工作簿等(您甚至可以在Web服务器上使用它 – 返回一个HTML表,但将Content-Type标头设置为application/ms-vnd.excel :Excel将打开并导入表格并将其转换为电子表格。)

如果您希望将CSV提供给数据库,那么您可以像以前一样通过Excel,或者如果您想自动执行此过程,则可以编写一个程序,使用您select的XML导航API迭代表行,将它们保存为CSV。 Python的Elementtree和CSV模块将使这非常容易。

过去,我曾经使用过BeautifulSoup这样的东西,取得了巨大的成功。

在审查了这些build议之后,我使用了HtmlUnit 。

使用HtmlUnit,我可以自定义Java代码以打开文件夹中的每个HTML文件,导航到TABLE标记,查询每列内容并提取创buildCSV文件所需的数据。

在.NET中,您可以使用HTMLAgilityPack 。

有关更多信息,请参阅StackOverflow 上的此前一个问题 。

如果要从HTML标记中提取内容,则应使用某种types的HTMLparsing器。 为此,这里有很多,这里有两个可以满足您的需求:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

遍历文本并使用正则expression式:)

http://www.knowledgehouse.sg