lemmatization

6熱度

1回答

我嘗試了正則表達式stemmer，但是我得到了數百個無關的標記。我只是對「戲劇」主題感興趣。以下是我正在使用的代碼： import nltk from nltk.book import * f = open('tupac_original.txt', 'rU') text = f.read() text1 = text.split() tup = nltk.Text(text1) lo

7熱度

2回答

非英語單詞的詞形化？

我想應用詞形化來減少單詞的屈折形式。我知道對於英語語言來說，WordNet提供了這樣的功能，但我也有興趣應用荷蘭語，法語，西班牙語和意大利語單詞的詞形。有沒有可靠的和可靠的方法去解決這個問題？謝謝！

2熱度

1回答

如何在Lucene.NET中刪除複數？

我想從文本中提取一些關鍵字。它工作得很好，但我需要刪除複數。由於我已經在使用Lucene進行搜索，我試圖用它從索引術語中提取關鍵字。 1，I指數在RAMDirectory索引文件， RAMDirectory idx = new RAMDirectory(); using (IndexWriter writer = new IndexWriter( idx, ne

4熱度

1回答

尋找英語單詞有着各自不同的形式

我工作的一個項目數據庫或文本文件，我需要得到一個給定的詞（詞幹）的根。如您所知，不使用字典的詞幹分析算法不準確。我也嘗試過WordNet，但對我的項目並不好。我找到了phpmorphy項目，但它不包含Java中的API。在這個時候，我要尋找一個數據庫或英文單詞與他們不同形式的文本文件。例如：運行運行然... 包括含有包括... ... 謝謝您的幫助或建議。

2熱度

1回答

在NLTK compat，而使用BrowServer用於瀏覽NLTK WordNet的數據庫詞形還原

擴展到用例這裏導入錯誤書）。我用例是探索和對比度我的數據集的一些詞形還原和制止方法（我試過波特詞形還原，它的工作）我試圖通過@Chthonic項目在這裏NLTK words lemmatizing描述使用詞形還原與WORDNET。但是它指向的源代碼（請參見http://nltk.org/_modules/nltk/app/wordnet_app.html）需要nltk的compat模塊。 fro

2熱度

2回答

Python的正則表達式要麼或案例

我有一個小模塊，獲取單詞及其複數形式的引理。然後它搜索句子，尋找包含兩個單詞（單數或複數）的句子，按任意順序排列。我有它的工作，但我想知道是否有更優雅的方式來建立這個表達。謝謝！注：Python2 words = ((cell,), (wolf,wolves)) string1 = "(?:"+"|".join(words[0])+")" string2 = "(?:"+"|".join(w

6熱度

1回答

如何使用GermaNet（WordNet德國通訊員）與R

我希望使用GermaNet進行詞形（對應於WordNet中的getLemma()），列表（實際上是DTM條款 - 用於增強文本分類性能）。但是，我找不到任何提示，或GermaNet的R軟件包。是否有可能仍然在R中使用它？

4熱度

1回答

NLTK單詞lemmatizing

我正在嘗試對NLTK單詞進行lemmatization。我現在可以找到的是，我可以使用stem包獲得一些結果，如將「汽車」轉換爲「汽車」和「女性」到「女性」，但是我不能對帶有詞綴的單詞進行詞綴化「確認」。在「確認」上使用WordNetLemmatizer()時，它返回「確認」並使用.PorterStemmer()，它返回「確認」而不是「確認」。誰能告訴我如何消除單詞的詞綴？說，當輸入爲「確

10熱度

2回答

可以加快Wordnet Lemmatizer的速度嗎？

我通過布朗語料庫上的NLTK使用Wordnet Lemmatizer（以確定它中的名詞是以更多的單數形式還是其複數形式使用）。即from nltk.stem.wordnet import WordNetLemmatizer l = WordnetLemmatizer() 我注意到，甚至低於例如一個最簡單的查詢需要相當長的時間（至少第二或兩個）。 l("cats") 據推測，這是因爲網絡連接必須要

2熱度

1回答

Python NLTK使用wordnet「進一步」的詞形化

我正在使用python，NLTK和WordNetLemmatizer進行lemmatizer。這裏是一個隨機的文本輸出什麼，我期待 from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet lem = WordNetLemmatizer() lem.lemmatize('worse', pos=wordn