1
A
回答
1
好像你正在尋找一個起點或想法,而不是一個具體的解決方案 - 你這裏有幾個選項。
首先,您需要確保PDF文本內容是可搜索的。例如,使用Adobe Acrobat的one way。其次,您需要使用某種API來索引PDF文件,以便它們可以被搜索到。這裏是Apache Lucene站點上的section,它可能會給你一些提示。
Apache Lucene是一個高性能,全功能的文本搜索引擎庫,完全用Java編寫。
請記住,在您的問題中沒有太多上下文,因此爲PDF或Lucene編制索引可能對您來說過分。
我建議谷歌搜索的一些方法 - 嘗試「文本搜索的PDF文件」,「閱讀PDF文件中的Java」等
下面是一個another answer來幫助你了。
1
獲取數據:
下載的iText(PDF工具),你要掃描,閱讀裏面的文本打開的所有PDF格式的,做一個HashMap來存儲字 - >數(字)。
排序您的HashMap:
這個問題已經被計算器這裏解決:Sort a Map<Key, Value> by values (Java)
2
可以使用PDFBox在PDF文件字數統計:
public static int countWordInFile(String word, String filename, String fileEncoding) throws Exception {
int count=0;
PrintStream ps = null;
PrintStream originalSystemOut = System.out;
try {
ByteArrayOutputStream baos = new ByteArrayOutputStream();
ps = new PrintStream(baos);
System.setOut(ps);
// Extracting text from page
ExtractText.main(new String[] {//
//
"-encoding", fileEncoding, //
"-console", //
filename //
//
});
String content = baos.toString(fileEncoding);
// TODO: Find the word in content and count its occurences...
} finally {
IOUtils.closeQuietly(ps);
System.setOut(originalSystemOut);
}
return count;
}
+0
謝謝@Stephan – 2015-02-11 10:07:04
相關問題
- 1. Drupal 7索引pdf文件搜索
- 2. 在iPad上搜索PDF中的單詞
- 3. 根據用於簡單搜索的搜索詞生成完整的pdf報告
- 4. 搜索pdf文件中的文字
- 5. pdf內容的索引和搜索
- 6. 索引PDF文件
- 7. 如何在Linux中使用pdftext搜索多個pdf文件中的單詞
- 8. Typo3 PDF索引索引搜索
- 9. MongoDB文本搜索和詞搜索的多個搜索詞
- 10. 使用Cloudera索引PDF文檔搜索
- 11. 在搜索引擎中搜索單數和複數的單詞
- 12. 在pdf文件中搜索字符串
- 13. 在Lucene索引的字段中搜索多個單詞
- 14. 如何索引PDF文件並搜索關鍵字?
- 15. 在PDF中搜索,索引它?
- 16. 使用iTextSharp在多個PDF元數據中搜索字符串
- 17. pdf文件文本閱讀和搜索
- 18. 文本搜索PDF
- 19. 搜索PDF文件中的文本
- 20. 搜索多個單詞在文件
- 21. Apache Solr - 索引PDF文件
- 22. 如何搜索多個pdf文件的內容並返回pdf的文件名?
- 23. 上傳和搜索大型PDF文件
- 24. 閱讀和PDF文件搜索
- 25. 索引pdf文檔
- 26. 索引的PDF文件沒有通過谷歌搜索返回
- 27. 索引/搜索PDF內容使用Solr
- 28. Xamarin.iOS Pdf搜索
- 29. 搜索多個搜索字詞
- 30. 在Mysql中多行搜索多個單詞和單個詞php
感謝。我用Lucene和它的工作。 – 2015-02-11 10:08:21