阅读与NPOI腐败excell文件

我最近也问了一个类似的问题,但是感谢那些对这个问题发表意见的人,我知道这个问题比NPOI更出色,所以我把这个问题删掉了,在这里重新翻译一下。

无论如何,我的主要问题是在我之前的问题中提到的。 我需要使用NPOI读取下载的.xls文件。 问题是我下载的文件很可能是一个已经导入到excel文档的HTML表格。 或者,或者Excel文档实际上是一个错误压缩/解压缩的.xlsx(MIME?)。

当我在Excel中打开文档时,我收到警告说文件可能已损坏。 我按“确定”,一切正常。 所以显然这个文件是可读的,但不是NPOI。

有人知道我能做些什么吗? 或者是失败的原因?

我想到了!

由于.xls文件实际上只是一个html表,我用记事本打开它,发现它是一个表格的html源代码。 所以我所要做的只是使parsing器从html文件读取到DataTable中,然后从那里继续。

这是一个开始(尚未完成parsing器):

private static void HTMLtoExcel(string fileName) //atm, reads the first cell value. { string text = File.ReadAllText(fileName); DataTable dt = new DataTable(); string insert; int start = text.IndexOf("<td>"); int stop = text.IndexOf("</td>"); insert = text.Substring(start, stop - start); insert = insert.Remove(0, 4); Console.WriteLine(insert); }