从一组HTML文件中提取表格内容的最佳方法是什么？

用TIDY清理一个完整的HTML文件的文件夹后，如何提取表格内容以便进一步处理？

取决于你想要做什么样的处理。您可以告诉Tidy生成XHTML，这是一种XML，这意味着您可以在结果中使用所有常用的XML工具，如XSLT和XQuery。

如果你想在Microsoft Excel中处理它们，那么你应该能够从HTML中切出表格，并把它放在一个文件中，然后在Excel中打开这个文件：它将愉快地将HTML表格转换成电子表格页面。然后，您可以将其另存为CSV或Excel工作簿等（您甚至可以在Web服务器上使用它 – 返回一个HTML表，但将Content-Type标头设置为application/ms-vnd.excel ：Excel将打开并导入表格并将其转换为电子表格。）

如果您希望将CSV提供给数据库，那么您可以像以前一样通过Excel，或者如果您想自动执行此过程，则可以编写一个程序，使用您select的XML导航API迭代表行，将它们保存为CSV。 Python的Elementtree和CSV模块将使这非常容易。

过去，我曾经使用过BeautifulSoup这样的东西，取得了巨大的成功。

在审查了这些build议之后，我使用了HtmlUnit 。

使用HtmlUnit，我可以自定义Java代码以打开文件夹中的每个HTML文件，导航到TABLE标记，查询每列内容并提取创buildCSV文件所需的数据。

在.NET中，您可以使用HTMLAgilityPack 。

有关更多信息，请参阅StackOverflow 上的此前一个问题。

如果要从HTML标记中提取内容，则应使用某种types的HTMLparsing器。为此，这里有很多，这里有两个可以满足您的需求：

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

遍历文本并使用正则expression式:)

http://www.knowledgehouse.sg

从一组HTML文件中提取表格内容的最佳方法是什么？

正则expression式文本提取

PHP中的子查询将数据提取到Excel

如何在VBA中提取工作表名称？

从HTML标记中的文件中刮除文本

VBA：提取列直到空，重复在下一张表

Excel vba报告

从文本中提取名称

EXCEL VBA：从单元格中的string中提取8位数字的序列

使用通配符从包含特定值/字符的单元格string中提取文本

我怎样才能从Excel单元中取出多个url？