在POI中parsingHTML内容

我使用POI来创build一个电子表格报告，我有HTML的内容与<p> ， <b/> ，   等等，我如何parsingPOI中的这些html标签？ POI中是否有可以parsinghtml内容的函数？

这是我的POI代码的示例：

 HSSFCell cell = getHSSFCell(mysheet, 5, 1); cell.setCellValue(new HSSFRichTextString(htmlContent));

先谢谢你。

POI不适用于HTML，适用于MS Office。你想使用的是你的HTMLparsing部分的Xpath。 Xpath是它自己的一个兔子洞，所以我不会详细介绍它，但是下面是java xpath的一些资源：

roseindia教程

的javadoc

IBM Xpath API

其中一个简单的解决scheme是使用HTMLparsing器parsingHTML内容，然后使用POI设置文本。我使用了Jericho HTML Parser。 http://jericho.htmlparser.net/docs/index.html

使用jericho进行简单的HTMLparsing：

 Source source = new Source("The HTML Text"); String parsedHTMLText = source.getTextExtractor().toString();