在POI中parsingHTML内容

我使用POI来创build一个电子表格报告,我有HTML的内容与<p><b/>&nbsp; 等等,我如何parsingPOI中的这些html标签? POI中是否有可以parsinghtml内容的函数?

这是我的POI代码的示例:

 HSSFCell cell = getHSSFCell(mysheet, 5, 1); cell.setCellValue(new HSSFRichTextString(htmlContent)); 

先谢谢你。

POI不适用于HTML,适用于MS Office。 你想使用的是你的HTMLparsing部分的Xpath。 Xpath是它自己的一个兔子洞,所以我不会详细介绍它,但是下面是java xpath的一些资源:

roseindia教程

的javadoc

IBM Xpath API

其中一个简单的解决scheme是使用HTMLparsing器parsingHTML内容,然后使用POI设置文本。 我使用了Jericho HTML Parser。 http://jericho.htmlparser.net/docs/index.html

使用jericho进行简单的HTMLparsing:

 Source source = new Source("The HTML Text"); String parsedHTMLText = source.getTextExtractor().toString();