我需要,我可以通過一個巨大的字符串到一個穩定的Java庫(例如,從白鯨幾章),並獲得「字數統計」般的統計數據:Java庫,用於文本分析和統計
- 的段數
- 句數
- 字數
- 字符數
最好東西國際化/本地化,但不是必需的。我認爲Apache Commons會有這樣的事情,但經過徹底的搜索後,它不會。
我可以自己寫這個,但它可能是越野車,需要很多時間;加上我不想重新發明輪子,如果它已經存在。我正在考慮使用Apache Tika,但無法確認它是否能夠滿足我的需求。它似乎處理字數,但不處理其他字。提前致謝。
我需要,我可以通過一個巨大的字符串到一個穩定的Java庫(例如,從白鯨幾章),並獲得「字數統計」般的統計數據:Java庫,用於文本分析和統計
最好東西國際化/本地化,但不是必需的。我認爲Apache Commons會有這樣的事情,但經過徹底的搜索後,它不會。
我可以自己寫這個,但它可能是越野車,需要很多時間;加上我不想重新發明輪子,如果它已經存在。我正在考慮使用Apache Tika,但無法確認它是否能夠滿足我的需求。它似乎處理字數,但不處理其他字。提前致謝。
看看Apache Tika。它可能符合您的要求
感謝@AmithKoujalgi(+1) - 它看起來像Tika是需要從命令行運行的可執行JAR?這是真的,還是可以像任何其他(非可執行的)jar庫一樣運行?再次感謝! – IAmYourFaja 2013-02-16 13:15:25
@DirtyMikeAndTheBoys:這不是「入門」,「解析器API」以及項目主頁中的所有其他鏈接。花些時間閱讀。 – 2013-02-16 13:23:05
P1:「*這是可口可樂還是百事可樂?」P2:(沒有答案)。 P1:「*顯然它是百事可樂*」P2:「*沒有P1,RTFM,你會看到它不是百事可樂*」。 P1:「*那麼它一定是可口可樂!尤里卡,我有我的答案!*」 – IAmYourFaja 2013-02-16 13:26:10
推薦問題並不適用於SO。 – millimoose 2013-02-16 13:10:39
好的 - @millimoose我編輯了這個問題來專門解決Apache Tika的問題。 – IAmYourFaja 2013-02-16 13:17:38
而@JBNizet我選擇「即刻」這個詞是不幸的。我並不是暗示時間不變,而是把它當作俗語。我已經從問題中刪除了它。 – IAmYourFaja 2013-02-16 13:18:34