使用java删除excel文件中列的HTML标签

我正在使用Java代码从文本文件中删除HTML标记。 但我的要求是,我想访问使用Java的Excel文件,并从特定列的每一行删除HTML标签。 我怎样才能访问使用JavaScript的Excel文件,以及如何将我的Java代码(删除HTML标签)到…

import java.io.*; import java.util.logging.Logger; public class Html2TextWithRegExp { private Html2TextWithRegExp() {} public static void main (String[] args) throws Exception{ StringBuilder sb = new StringBuilder(); BufferedReader br = new BufferedReader(new FileReader("java-new.txt")); String line; while ( (line=br.readLine()) != null) { sb.append(line); } String nohtml = sb.toString().replaceAll("\\<.*?>",""); System.out.println(nohtml); try( PrintWriter out = new PrintWriter( "nohtml.txt" )){ out.println( nohtml ); } } } 

你可以使用jsoup 。 那么你可以这样做:

 String noHTML = Jsoup.parse(sb.toString()).text(); 

不要使用正则expression式; HTML不是一种常规的语言,你不可能处理所有必然出现的特殊情况。

我最近用这个方法清理了一大堆我正在用于机器学习任务的论坛post,这个post很完美。