Plone全文索引Excel文件

我怎样才能定制的Plonesearch引擎,以充分发挥Excel文件的全文索引? 我已经安装了pdf,word文件全文索引的pdftotext和wv。

如果您将Products.OpenXml添加到您的实例egg并将其安装在Plone中,则可以对现代Office格式(至less.docx和.xlsx)进行索引。 对于普通的旧Excel(.xls)文件,这是行不通的。

我在几个星期前在Plone 4.3.2 buildoutconfiguration中试了一下:

[instance] eggs = ... Products.OpenXml [versions] # You need a more recent lxml than default Plone, some 3.x version lxml = 3.3.3 Products.OpenXml = 1.1.1 

另外或另外,使用Products.AROfficeTransforms 。 我只与Products.OpenXml结合使用,但如果您只对旧式Excel表格,.xls感兴趣,则可以使用Products.AROfficeTransforms。 在构buildconfiguration中:

 [instance] eggs = ... Products.AROfficeTransforms [versions] Products.AROfficeTransforms = 0.11.0 

它需要在您的系统上安装xlhtml二进制文件。 这是一个古老的二进制文件,最后在2002年发生了变化。我没有尝试自己安装。

尝试ftw.tika

支持的格式:

  • Microsoft Office格式(Office Open XML)
  • * .docx Word文档
  • * .dotx Word模板
  • * .xlsx Excel表格
  • * .xltx Excel模板
  • * .pptx PowerPoint演示文稿
  • * .potx PPT模板
  • * .ppsx Powerpoint幻灯片
  • 旧版Microsoft Office(97)格式
  • 富文本格式
  • OpenOffice ODF格式
  • OpenOffice 1.x格式
  • 常见的Adobe格式(InDesign,Illustrator,Photoshop)
  • PDF文件
  • WordPerfect文档电子邮件

它基于apache tika,并作为主pipepipe理的服务运行(您必须扩展您的构build)。

它与portal_transforms集成在一起,经过了充分的testing和logging。

更多信息:

  • 释放pypi