我想從文本中提取一些關鍵字。它工作得很好,但我需要刪除複數。 由於我已經在使用Lucene進行搜索,我試圖用它從索引術語中提取關鍵字。 1,I指數在RAMDirectory索引文件, RAMDirectory idx = new RAMDirectory();
using (IndexWriter writer =
new IndexWriter(
idx,
ne
擴展到用例這裏導入錯誤書)。我用例是探索和對比度我的數據集的一些詞形還原和制止方法(我試過波特詞形還原,它的工作) 我試圖通過@Chthonic項目在這裏NLTK words lemmatizing描述使用詞形還原與WORDNET。但是它指向的源代碼(請參見http://nltk.org/_modules/nltk/app/wordnet_app.html)需要nltk的compat模塊。 fro