Tag: apache tika

如何使用Tika或任何其他库从PDF文件中提取数据并以CSV / Excel格式存储

我想提取PDF文件中存在的数据,并以CSV / Excel表单的格式显示。我知道这可以在java.But中使用Tika库来完成,我确实find了如何提取数据作为简单的文本,但我想知道如何将其存储在Excel表格中。 如果有人早些时候做过这种types的工作,那么请帮助我。

如何使用apache-tika从excel文件中访问空白单元格

我正在使用Apache-Tika-1.13来读取和处理excel文件的内容,我正在使用它,但是当我访问包含空白单元格的excel文件时,我遇到了问题。 我需要访问空白单元格, Tika是否提供任何方法来访问空白单元格的最新版本?

使用Apache POI从Excel格式化HTML格式的单元格值

我正在使用Apache POI来阅读一个Excel文档。 至less可以说,现在能够达到我的目的。 但是有一点我感到震惊的是将单元格的值提取为HTML。 我有一个单元格,其中用户将input一些string,并应用一些格式(如子弹/数字/粗体/斜体)等 所以当我阅读它时,内容应该是HTML格式,而不是POI给出的纯string格式。 我几乎浏览了整个POI API,但找不到任何人。 我想保留只是一个特定列的格式,而不是整个Excel。 按列我的意思是,在该列中input的文本。 我想这个文本为HTML文本。 也探索和使用Apache Tika 。 然而,据我所知,它只能让我的文本,而不是文本的格式。 请有人指导我。 我没有select。 假设我写了我的名字是天使和恶魔在Excel中。 我在Java中得到的输出是My name is <b>Angel</b> and <i>Demon</i>