2011-01-22 107 views
3

中的詞出現的Java庫可以請任何人推薦適合此作業的庫嗎?在各種文檔計數出現的詞語是我必須做的,還是它似乎我必須使用庫就像唯一的工作:用於計算PDF,MS Office/OpenOffice .doc,.odt,.xsl,.ppt

PDF

pdfbox

itextpdf

MS辦公室

apache poi - 不確定是否支持2008+ MS關閉冰文件和OpenOffice文件?

OpenOffice的

odftoolkit

jopendocument

能否請您分享您的經驗,建議選擇和警惕,我可能跨越來的問題?

回答

2

alt text

阿帕奇提卡™是 檢測和提取的元數據和從使用現有的解析器 庫各種 文檔 結構化文本內容的工具包。

Supported Document Formats

  • 超文本標記語言
  • XML和導出格式
  • 微軟Office文檔格式
  • OpenDocument格式
  • 可移植文檔格式
  • 電子出版物格式
  • RTF格式
  • 壓縮和包裝形式
  • 文本格式
  • 音頻格式
  • 圖像格式
  • 視頻格式
  • Java類文件和檔案
  • 以MBOX格式

使用Tika AutoD etectParser,您可以輕鬆解析給定的文檔並提取文本內容以計算單詞。

我已經將它用於各種文件類型,它的性能很好。

如果任何現有的解析器不能滿足您的需求,那麼擴展/定製解析器或集成您自己的解析器相當容易。

+0

我不敢相信它不會發生在我身上,我已經在一兩年前甚至使用它了,現在我已經在我的maven pom定義中擁有了所有這些庫,並且正在學習如何使用它們: - )謝謝你Mads – lisak 2011-01-22 03:00:41

相關問題