在POI中parsingHTML内容
我使用POI来创build一个电子表格报告,我有HTML的内容与<p>
, <b/>
,
等等,我如何parsingPOI中的这些html标签? POI中是否有可以parsinghtml内容的函数?
这是我的POI代码的示例:
HSSFCell cell = getHSSFCell(mysheet, 5, 1); cell.setCellValue(new HSSFRichTextString(htmlContent));
先谢谢你。
POI不适用于HTML,适用于MS Office。 你想使用的是你的HTMLparsing部分的Xpath。 Xpath是它自己的一个兔子洞,所以我不会详细介绍它,但是下面是java xpath的一些资源:
roseindia教程
的javadoc
IBM Xpath API
其中一个简单的解决scheme是使用HTMLparsing器parsingHTML内容,然后使用POI设置文本。 我使用了Jericho HTML Parser。 http://jericho.htmlparser.net/docs/index.html
使用jericho进行简单的HTMLparsing:
Source source = new Source("The HTML Text"); String parsedHTMLText = source.getTextExtractor().toString();