Plone全文索引Excel文件
我怎样才能定制的Plonesearch引擎,以充分发挥Excel文件的全文索引? 我已经安装了pdf,word文件全文索引的pdftotext和wv。
如果您将Products.OpenXml添加到您的实例egg并将其安装在Plone中,则可以对现代Office格式(至less.docx和.xlsx)进行索引。 对于普通的旧Excel(.xls)文件,这是行不通的。
我在几个星期前在Plone 4.3.2 buildoutconfiguration中试了一下:
[instance] eggs = ... Products.OpenXml [versions] # You need a more recent lxml than default Plone, some 3.x version lxml = 3.3.3 Products.OpenXml = 1.1.1
另外或另外,使用Products.AROfficeTransforms 。 我只与Products.OpenXml结合使用,但如果您只对旧式Excel表格,.xls感兴趣,则可以使用Products.AROfficeTransforms。 在构buildconfiguration中:
[instance] eggs = ... Products.AROfficeTransforms [versions] Products.AROfficeTransforms = 0.11.0
它需要在您的系统上安装xlhtml二进制文件。 这是一个古老的二进制文件,最后在2002年发生了变化。我没有尝试自己安装。
尝试ftw.tika
支持的格式:
- Microsoft Office格式(Office Open XML)
- * .docx Word文档
- * .dotx Word模板
- * .xlsx Excel表格
- * .xltx Excel模板
- * .pptx PowerPoint演示文稿
- * .potx PPT模板
- * .ppsx Powerpoint幻灯片
- 旧版Microsoft Office(97)格式
- 富文本格式
- OpenOffice ODF格式
- OpenOffice 1.x格式
- 常见的Adobe格式(InDesign,Illustrator,Photoshop)
- PDF文件
- WordPerfect文档电子邮件
它基于apache tika,并作为主pipepipe理的服务运行(您必须扩展您的构build)。
它与portal_transforms集成在一起,经过了充分的testing和logging。
更多信息:
- 释放pypi