2012-11-16 17 views
0

可能重複:
How to extract text from the PDF document?PDF文本使用PHP - 在Windows Server

問題/應用:我正在運行的Apache在Windows 2008 Server上建立一個系統在PHP/Java的。這個概念是用戶將上傳一個PDF文件。然後,我希望系統分析上傳的PFD文件,並使用我將要設計的算法生成標題/描述。稍後,我的搜索引擎將能夠搜索存儲的標題/描述以查找PDF的搜索相關性。這將允許我搜索存儲的PDF文件,而無需在搜索過程中訪問PDF文件。

我需要的是一個腳本或代碼,將PDF轉換爲文本並將其存儲到一個數組或某些東西,然後我可以分解以獲得我所需的東西。

我發現其他線程使用unix/linux命令行技術。然而,我還沒有找到任何腳本來讓我做我需要的Windows上的Apache服務器。

任何建議或替代技術,我可以用於此將不勝感激!

+0

http://stackoverflow.com/questions/6999889/how-to-extract-text-from-the-pdf-document –

+0

這個類很好用(我找到的最好的一個):https:// github的.com /基督教Vigh的-phpclasses/PdfToText – dlofrodloh

回答

0

由於文本在其中呈現的方式(如二維表面上的繪圖說明),PDF文件轉換爲純文本會產生問題,特別是當源爲多列時。

有許多開源和專有的工具,你可以使用但已經看了所有這些,我可以放心地說沒有任何工作適用於所有情況。谷歌搜索「PDF到文本轉換」將向您展示其中大部分內容。

您可能還希望探索使用內置PDF轉換的文本搜索引擎,如SOLR或彈性搜索,它們都是開源的並基於Apache Lucene。再次,谷歌搜索將指向你各自的主頁。

相關問題