PDF文本使用PHP - 在Windows Server

可能重複：
How to extract text from the PDF document?PDF文本使用PHP - 在Windows Server

問題/應用：我正在運行的Apache在Windows 2008 Server上建立一個系統在PHP/Java的。這個概念是用戶將上傳一個PDF文件。然後，我希望系統分析上傳的PFD文件，並使用我將要設計的算法生成標題/描述。稍後，我的搜索引擎將能夠搜索存儲的標題/描述以查找PDF的搜索相關性。這將允許我搜索存儲的PDF文件，而無需在搜索過程中訪問PDF文件。

我需要的是一個腳本或代碼，將PDF轉換爲文本並將其存儲到一個數組或某些東西，然後我可以分解以獲得我所需的東西。

我發現其他線程使用unix/linux命令行技術。然而，我還沒有找到任何腳本來讓我做我需要的Windows上的Apache服務器。

任何建議或替代技術，我可以用於此將不勝感激！

來源

2012-11-16 Vidarious

http://stackoverflow.com/questions/6999889/how-to-extract-text-from-the-pdf-document –

這個類很好用（我找到的最好的一個）：https：// github的.com /基督教Vigh的-phpclasses/PdfToText – dlofrodloh

由於文本在其中呈現的方式（如二維表面上的繪圖說明），PDF文件轉換爲純文本會產生問題，特別是當源爲多列時。

有許多開源和專有的工具，你可以使用但已經看了所有這些，我可以放心地說沒有任何工作適用於所有情況。谷歌搜索「PDF到文本轉換」將向您展示其中大部分內容。

您可能還希望探索使用內置PDF轉換的文本搜索引擎，如SOLR或彈性搜索，它們都是開源的並基於Apache Lucene。再次，谷歌搜索將指向你各自的主頁。

來源

2012-11-16 18:03:42

PDF文本使用PHP - 在Windows Server

回答

相關問題