0
我有我需要尋找一組關鍵字的實例和得分從每個組中的每個關鍵字的次數是500個+ PDF文件在文件中使用(理想情況下被轉儲到CSV文件中)。
例如,我可以有以下
keyword-set-1 = "foo" "bar";
keyword-set-2 = "jon" "doe";
,並用以下文字PDF文件
"jon doe and mary doe are both at the bar."
這將使我下面的分數
keyword-set-1 = 3 (jon, doe and doe)
keyword-set-2 = 1 (bar)
我已經完成
我發現了多種方式,如果我正在搜索純文本文件,我可以在PHP或Java中執行此操作。不過,我還沒有找到PDF文件的單一解決方案。我曾考慮使用PDF礦工將所有PDF轉換爲純文本,但如果可能的話,我寧願避免這種情況。
PDF的質量很高,而不是掃描的形式。