PHP – 从不同文件格式中提取文本Word / Excel / Powerpoint / PDF / RTF
我正在开发一个Web应用程序,用户可以上传MS Word(.doc和.docx),Excel(.xls和.xlsx),Powerpoint,PDF,文本文件和富文本文件(.rtf)等不同文件。
作为应用程序stream的一部分,我想在IFrame中显示文件内容的预览,HTML最好,但是我可以使用文本,使用PHP类
我正在使用的方法是:
-
确定每个文件的扩展名
-
处理每个文件不同
-
显示文本或HMTL
有没有这样的图书馆?
更新:
发表我的最终解决scheme作为答案,而不是更新问题
没有单个库解决了这个问题,所以我使用下面的库为每个文件types解决了这个问题:
a)MS Word文档 – Live Docx(http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/)
b)MS Excel – PHP Excel(http://phpexcel.codeplex.com/)
c)来自PDF的文本 – 来自这个Pastebin的http://pastebin.com/hRviHKp1
d)Powerpoint – 仍在进行中
几年前,我有一个类似的任务,我们最终使用ImageMagick在服务器模式下使用OpenOffice来检索PowerPoint文档的缩略图图像。 对于某种forms的演示文稿库。
基本上这个想法是运行OpenOffice并将您的文档转换为PDF,然后使用ImageMagick创build该PDF首页的缩略图。
这个人在这里使用OpenOffice与另一个工具来转换文件: https : //stackoverflow.com/a/1046159/626621 (可以帮助你)
这样做的好处是,我认为,作为文档预览的图像将更多地告诉用户而不仅仅是文本。