PHP – 从不同文件格式中提取文本Word / Excel / Powerpoint / PDF / RTF

我正在开发一个Web应用程序,用户可以上传MS Word(.doc和.docx),Excel(.xls和.xlsx),Powerpoint,PDF,文本文件和富文本文件(.rtf)等不同文件。

作为应用程序stream的一部分,我想在IFrame中显示文件内容的预览,HTML最好,但是我可以使用文本,使用PHP类

我正在使用的方法是:

  1. 确定每个文件的扩展名

  2. 处理每个文件不同

  3. 显示文本或HMTL

有没有这样的图书馆?

更新:

发表我的最终解决scheme作为答案,而不是更新问题

没有单个库解决了这个问题,所以我使用下面的库为每个文件types解决了这个问题:

a)MS Word文档 – Live Docx(http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/)

b)MS Excel – PHP Excel(http://phpexcel.codeplex.com/)

c)来自PDF的文本 – 来自这个Pastebin的http://pastebin.com/hRviHKp1

d)Powerpoint – 仍在进行中

我在我的博客http://ssmusoke.wordpress.com/2012/06/16/display-contents-of-different-file-formats-wordexcelpowerpointpdfrtf-as-html/上提供了更多详细信息

几年前,我有一个类似的任务,我们最终使用ImageMagick在服务器模式下使用OpenOffice来检索PowerPoint文档的缩略图图像。 对于某种forms的演示文稿库。

基本上这个想法是运行OpenOffice并将您的文档转换为PDF,然后使用ImageMagick创build该PDF首页的缩略图。

这个人在这里使用OpenOffice与另一个工具来转换文件: https : //stackoverflow.com/a/1046159/626621 (可以帮助你)

这样做的好处是,我认为,作为文档预览的图像将更多地告诉用户而不仅仅是文本。