清理微软生成的哈希包括在一个'干净'网页的HTML

我有一个使用#include包含其他文件(如轮回或电话号码表)的Intranet页面。 这些包含的文件保存在Microsoft Excel中。

并不是所有的人都是由我(负责内联网的人)维护的,所以没有select拒绝接受excel生成的html文件。

我遇到的问题是,这些文件堆满了垃圾,几乎肯定不是浏览器需要显示什么是一个简单的表格,在某些颜色格式的地方(有时文本将粗体或斜体在特定的单元格)

什么,在你看来是更好的方式去做这件事? 有没有一些代码,可以清除由Excel保存的文件的所有垃圾作为HTML? 有没有更行之有效的行业知名的方式来显示由第三方内联生成的内容?

欢迎任何build议。

编辑:使用ASP,PHP,Javascript的解决scheme也欢迎。

你的文件是否有一些重复的结构? 导出为CSV(以逗号分隔的值)并从该源重build表可能比试图删除Excel认为必须添加的许多不需要的元素和属性更容易,更快捷。

如果你的粗体和斜体的特定单元格真的很特殊(整列数据是正常的一部分斜体部分),比CSV不会有帮助。