我怎样才能提取数据从embedded在使用python和beautifulsoup的HTML的Excel表格中?

所以我得到了从网页上的表格中提取数据的想法,以便我可以对它进行平均,直观地表示它,并使用它。 我已经尝试使用python与beautifulsoup来获取数据,但我仍然结束了奇怪的Excel格式代码在开始看起来像这样:

<!--table {mso-displayed-decimal-separator:"\."; mso-displayed-thousand-separator:"\,";} @page {margin:1.0in .75in 1.0in .75in; mso-header-margin:.51in; mso-footer-margin:.51in;} .style0 {mso-number-format:General; text-align:general; vertical-align:bottom; white-space:nowrap; mso-rotate:0; mso-background-source:auto; ...(more of the same) ... --> 

我查看了页面的源代码,它包括:

 <meta name=ProgId content=Excel.Sheet> <meta name=Generator content="Microsoft Excel 14"> 

我怎样才能以有意义的方式提取数据,保留它,并允许它被操纵? 感谢您的时间。

我当前的脚本只是使用curl来获取html文件,然后打开html文件并使用beautifulsoup get_text,并将其保存到文本文件中。

你在做这样的事吗?

  import BeautifulSoup s = BeautifulSoup.BeautifulSoup(html) table = s.find("table", {"id": "mytableid"}) try: rows = table.findAll('tr') for tr in rows: cols = tr.findAll('td') for td in cols: val = td.text 

直到你改善你的问题,我无法给你一个更好的答案。