我需要一個庫來從文檔(doc,doxc,pdf,html,rtf,odt .....)中提取文本。是否有用於此目的的一個庫(適用於所有文檔類型)?PHP,文檔閱讀庫
回答
在Windows以外的系統上,沒有這樣的庫可以爲您做到這一點,並且很有可能以後不會有這樣的情況。主要原因是您指定的文檔格式會不時更新。
然而,在Windows上,如果你安裝了php,你肯定可以使用activex擴展來輕鬆讀取所有這些格式,而且你只需要在機器上安裝除php以外的適當的辦公應用程序就可以得到這個上班。這也將確保將來的版本的文檔繼續在您的PHP代碼中工作,只要您的辦公應用程序可以讀取這些文檔。在php庫的庫中尋找'php win32'庫,你應該找到一些不錯的庫
待辦事項文件批量轉換到一個格式,使用
odtphp http://www.odtphp.com/index.php?i=tutorials&p=tutorial1
或
PyODConverter(使用PHP命令行可執行工具,使其PHP「與工作」運行這個)http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html
然後通過任何通用的pdf2txt庫或phpOCR運行最後的結果。
更安全的方法是先將文檔轉換爲純文本,然後解析純文本版本的內容來做任何事情你要。有許多命令行轉換器可以在任何操作系統上從不同的格式轉換爲純文本(Word to txt,PDF to txt等)。
順便說一句關於PDFs:並不是所有的文件都包含純文本,有些只是一個掃描圖像的集合,所以在這種情況下,你會運氣不好(除非你會使用OCR)。
OpenTBS是一個PHP工具,可以讀取修改任何OpenDocument文件(ODT,ODS,ODG,ODF,ODM,ODP,OTT,OTS,OTG,OTP)的內容。而且還有OpenXML文件(DOCX,XLSX,PPTX)。
如果您可以將具有不支持格式的文件轉換爲OpenTBS支持的格式之一,那麼就完成了。
- 1. 閱讀Apple Numbers文檔的Ruby庫?
- 2. 閱讀Word文檔的Java庫
- 3. PHP文檔閱讀器(txt,docx,wps等)
- 4. PHP閱讀「Unicode」MS Word文檔
- 5. 如何閱讀jQuery文檔
- 6. 閱讀和Word文檔
- 7. Google API:閱讀文檔
- 8. JavaScript - 閱讀XML文檔
- 9. 如何閱讀Javascript文檔?
- 10. XCode文檔 - 脫機閱讀
- 11. PyQt - 如何閱讀文檔
- 12. 如何閱讀API文檔?
- 13. 閱讀PHP文本
- 14. 閱讀php文件
- 15. 使用Office Word與PHP閱讀文檔文件
- 16. 閱讀文本文檔存儲過程
- 17. 如何閱讀OpenOffice.org文本文檔
- 18. 閱讀谷歌文本文檔
- 19. C++ MIDI文件閱讀庫
- 20. 用php閱讀PDF文件
- 21. 用php閱讀pdf文件
- 22. 用PHP閱讀.info文件
- 23. 閱讀CSV文件在PHP
- 24. XLSX文件,閱讀在PHP
- 25. 文件名閱讀PHP
- 26. 任何Objective-C庫來解析/閱讀單詞文檔?
- 27. 閱讀一個Xml文檔並插入數據庫
- 28. 你如何閱讀ramda文檔?
- 29. 閱讀xml文檔使用jaxb
- 30. 如何閱讀PLAY! API文檔?
什麼樣的文字?你能給我們一些更多的細節嗎? – 2011-01-13 18:17:40
不是「一個圖書館能夠將它們全部帶入黑暗中並將它們綁定」。如果有的話,我想支持是不可能的。因爲涵蓋所有這些格式會讓任何一組開發者瘋狂。對於其中一些文檔格式,您甚至不會找到**任何**正式的庫。 – 2011-01-13 18:23:31