从命令行将表格从html提取到excel

将HTML文档中的表格转换为Excel可读文件的最佳方法是什么? 我想这是一个命令行工具,我可以在我的Mac上打电话,因为我想批处理一堆HTML文件。

我知道我可以写一个脚本来很容易地做到这一点,但是我正在寻找可以从命令行调用的通用的现有工具。 我宁愿尽可能地保留格式,但如果没有其他容易安装和设置的帐单,就愿意回到CSV。

Excel可以读取/打开带有表格的HTML文档,而不需要转换。 它会自动将表格单元格映射到工作表单元格。

尝试这个:

  • 将下面的数据保存在扩展名为.html的文件中。
  • 用Excel打开文件
<table> <tr> <th>Heading1</th> <th>Heading2</th> </tr> <tr> <td>R1, C1</td> <td>R1, C2</td> </tr> <tr> <td>R2, C1</td> <td>R2, C2</td> </tr> </table> 

html2text应该可以工作,至less,它应该能够生成一些你可以用逗号分隔的列表(或者相当容易地将其分解)。 这里有很多链接:

http://www.google.com/search?hl=en&q=html2text&btnG=Search

它有很多标志来控制输出的格式。 尝试一下。

–Jeff