apache poi vs python xlrd

我打算在linux上使用apache poi或python xlrd来读取电子表格。 我偏向于python xlrd,但是apache poi对我来说似乎是一个更完整的项目(可能是因为它受到apache基金会的支持)。 什么将是一个更好的select(我偏向python,但仍然..)? 我希望能够阅读大多数的Excel版本和读取macros。

根据您的需求的复杂性,您可以使用Apache Tika CLI。 Tika处理与POI(和其他图书馆)的交谈,并将返回该文档的XHTML或纯文本版本。 如果你只是想要一个简单的Linux命令,那可能就足够了。

否则,这可能取决于你的Java技能是什么样的。 POI应该做你需要的一切,但是你需要编写一些代码来抓取你感兴趣的部分。 看看快速指南 ,让你开始。

(我不知道xlrd,对不起)

一个潜在的最好的select就是通过Jython来利用Apache POI(python语法和java interop)。

这是一个过时的jython例子…我相信这将需要更新的POI的新版本。