可能重複:
How to extract text from the PDF document?PDF文本使用PHP - 在Windows Server
問題/應用:我正在運行的Apache在Windows 2008 Server上建立一個系統在PHP/Java的。這個概念是用戶將上傳一個PDF文件。然後,我希望系統分析上傳的PFD文件,並使用我將要設計的算法生成標題/描述。稍後,我的搜索引擎將能夠搜索存儲的標題/描述以查找PDF的搜索相關性。這將允許我搜索存儲的PDF文件,而無需在搜索過程中訪問PDF文件。
我需要的是一個腳本或代碼,將PDF轉換爲文本並將其存儲到一個數組或某些東西,然後我可以分解以獲得我所需的東西。
我發現其他線程使用unix/linux命令行技術。然而,我還沒有找到任何腳本來讓我做我需要的Windows上的Apache服務器。
任何建議或替代技術,我可以用於此將不勝感激!
http://stackoverflow.com/questions/6999889/how-to-extract-text-from-the-pdf-document –
這個類很好用(我找到的最好的一個):https:// github的.com /基督教Vigh的-phpclasses/PdfToText – dlofrodloh