2014-02-15 17 views
0

的問題編程方式搜索多個PDF文檔的一系列關鍵詞

我有我需要尋找一組關鍵字的實例和得分從每個組中的每個關鍵字的次數是500個+ PDF文件在文件中使用(理想情況下被轉儲到CSV文件中)。

例如,我可以有以下

keyword-set-1 = "foo" "bar"; 
keyword-set-2 = "jon" "doe"; 

,並用以下文字PDF文件

"jon doe and mary doe are both at the bar." 

這將使我下面的分數

keyword-set-1 = 3 (jon, doe and doe) 
keyword-set-2 = 1 (bar) 

我已經完成

我發現了多種方式,如果我正在搜索純文本文件,我可以在PHP或Java中執行此操作。不過,我還沒有找到PDF文件的單一解決方案。我曾考慮使用PDF礦工將所有PDF轉換爲純文本,但如果可能的話,我寧願避免這種情況。

PDF的質量很高,而不是掃描的形式。

回答

0

您能指定PDF的質量是什麼嗎?他們是否掃描表格?那麼你可能需要使用OCR。我可以推薦Tesseract(也需要像ImageMagick這樣的圖像轉換器),它將PDF轉換爲HTML文件。然後,您可以輕鬆地使用Jsoup循環單詞。

如果沒有掃描,您可以使用PDFBox。這也是一個Java庫。

的Tesseract:https://code.google.com/p/tesseract-ocr/ PDFBox的:http://pdfbox.apache.org/