2011-01-13 119 views
4

我需要一個庫來從文檔(doc,doxc,pdf,html,rtf,odt .....)中提取文本。是否有用於此目的的一個庫(適用於所有文檔類型)?PHP,文檔閱讀庫

+1

什麼樣的文字?你能給我們一些更多的細節嗎? – 2011-01-13 18:17:40

+3

不是「一個圖書館能夠將它們全部帶入黑暗中並將它們綁定」。如果有的話,我想支持是不可能的。因爲涵蓋所有這些格式會讓任何一組開發者瘋狂。對於其中一些文檔格式,您甚至不會找到**任何**正式的庫。 – 2011-01-13 18:23:31

回答

0

在Windows以外的系統上,沒有這樣的庫可以爲您做到這一點,並且很有可能以後不會有這樣的情況。主要原因是您指定的文檔格式會不時更新。

然而,在Windows上,如果你安裝了php,你肯定可以使用activex擴展來輕鬆讀取所有這些格式,而且你只需要在機器上安裝除php以外的適當的辦公應用程序就可以得到這個上班。這也將確保將來的版本的文檔繼續在您的PHP代碼中工作,只要您的辦公應用程序可以讀取這些文檔。在php庫的庫中尋找'php win32'庫,你應該找到一些不錯的庫

2

更安全的方法是先將文檔轉換爲純文本,然後解析純文本版本的內容來做任何事情你要。有許多命令行轉換器可以在任何操作系統上從不同的格式轉換爲純文本(Word to txt,PDF to txt等)。

順便說一句關於PDFs:並不是所有的文件都包含純文本,有些只是一個掃描圖像的集合,所以在這種情況下,你會運氣不好(除非你會使用OCR)。

1

OpenTBS是一個PHP工具,可以讀取修改任何OpenDocument文件(ODT,ODS,ODG,ODF,ODM,ODP,OTT,OTS,OTG,OTP)的內容。而且還有OpenXML文件(DOCX,XLSX,PPTX)。

如果您可以將具有不支持格式的文件轉換爲OpenTBS支持的格式之一,那麼就完成了。