我曾經使用LingPipe,Stanford的NER,RiTa和各種句子相似度庫來處理我以前的Java項目,這些項目專注於大量英文文本的文本(預處理)(索引,xml標記,主題檢測等)總計大於1GB的文本爲10,000個文檔)。也許我是一個糟糕的Java程序員,但是當我切換到不同的語料庫時,我發現自己打字了很多代碼並使用了很多庫。總的來說,我覺得這項工作可能會有更好的工具。Python的NLTK與相關的Java庫?
我想我的問題是,我將受益於切換到Python和NLTK信息檢索/語言處理?還是有足夠的優點和缺點使其非常主觀? NLTK是否足夠直觀,可以快速學習?
我會弄髒自己的手,但在接下來的幾天裏我將無法使用個人計算機。
謝謝你的建議。看起來大多數人都喜歡Python和NLTK,但是Java解決方案的數量讓我覺得我正在放棄一艘更加漂亮的船。 – wnewport 2011-04-08 21:49:26