我試過在這裏和那裏搜索它,但找不到任何好的解決方案,所以儘管問了nlp專家。我正在開發一個文本相似性查找應用程序,爲此我需要匹配成千上萬的文檔(每個約1000字)。對於nlp部分,我最好的選擇是NLTK(看到它的功能和Python的算法友好性。但是現在當詞性標註本身需要很長時間時,我相信nltk可能不是最合適的。傷害我,因此任何解決方案都適用於我 請注意,我已經開始從mysql遷移到hbase,以便在如此大量的數據上工作更多的自由度,但仍存在問題,如何執行algos。是一種選擇,但這也是機器學習,不是專門用於nlp的(可能對語音識別有好處)還有什麼其他可用的選擇,主要是我需要高性能的nlp(從高性能機器學習中退出) (我對Mahout傾向了一點,看到未來的用法)如何提高NLTK的性能?備擇方案?
它是關於縮放nltk。
NLTK很慢;它對原型設計最有用。考慮[Gensim](http://radimrehurek.com/gensim/),這是更具可擴展性。 –