使用java删除excel文件中列的HTML标签

我正在使用Java代码从文本文件中删除HTML标记。但我的要求是，我想访问使用Java的Excel文件，并从特定列的每一行删除HTML标签。我怎样才能访问使用JavaScript的Excel文件，以及如何将我的Java代码（删除HTML标签）到…

import java.io.*; import java.util.logging.Logger; public class Html2TextWithRegExp { private Html2TextWithRegExp() {} public static void main (String[] args) throws Exception{ StringBuilder sb = new StringBuilder(); BufferedReader br = new BufferedReader(new FileReader("java-new.txt")); String line; while ( (line=br.readLine()) != null) { sb.append(line); } String nohtml = sb.toString().replaceAll("\\<.*?>",""); System.out.println(nohtml); try( PrintWriter out = new PrintWriter( "nohtml.txt" )){ out.println( nohtml ); } } }

你可以使用jsoup 。那么你可以这样做：

 String noHTML = Jsoup.parse(sb.toString()).text();

不要使用正则expression式; HTML不是一种常规的语言，你不可能处理所有必然出现的特殊情况。

我最近用这个方法清理了一大堆我正在用于机器学习任务的论坛post，这个post很完美。

使用java删除excel文件中列的HTML标签

无法使用powerpivot中的VBA来过滤数据透视表

Excel VBA循环内带有variables的多个循环

select文件夹path以在工作簿中保存多个电子表格的代码？

VBA – 无效或不合格的参考错误

在dataframe名称变化的循环中操作dataframe

find特定PivotItem的地址

VBA第一个数组项总是空的

将具有多个不相邻单元格的区域复制到同一单元格上的另一个工作表

Excel中的VBA正在跳过第二个Do Until Until Loop完全

VBA：循环不工作，因为它应该