lemmatization

    6熱度

    1回答

    我嘗試了正則表達式stemmer,但是我得到了數百個無關的標記。我只是對「戲劇」主題感興趣。以下是我正在使用的代碼: import nltk from nltk.book import * f = open('tupac_original.txt', 'rU') text = f.read() text1 = text.split() tup = nltk.Text(text1) lo

    7熱度

    2回答

    我想應用詞形化來減少單詞的屈折形式。我知道對於英語語言來說,WordNet提供了這樣的功能,但我也有興趣應用荷蘭語,法語,西班牙語和意大利語單詞的詞形。有沒有可靠的和可靠的方法去解決這個問題?謝謝!

    2熱度

    1回答

    我想從文本中提取一些關鍵字。它工作得很好,但我需要刪除複數。 由於我已經在使用Lucene進行搜索,我試圖用它從索引術語中提取關鍵字。 1,I指數在RAMDirectory索引文件, RAMDirectory idx = new RAMDirectory(); using (IndexWriter writer = new IndexWriter( idx, ne

    4熱度

    1回答

    我工作的一個項目數據庫或文本文件,我需要得到一個給定的詞(詞幹)的根。如您所知,不使用字典的詞幹分析算法不準確。我也嘗試過WordNet,但對我的項目並不好。我找到了phpmorphy項目,但它不包含Java中的API。 在這個時候,我要尋找一個數據庫或英文單詞與他們不同形式的文本文件。例如: 運行運行然... 包括含有包括... ... 謝謝您的幫助或建議。

    2熱度

    1回答

    擴展到用例這裏導入錯誤書)。我用例是探索和對比度我的數據集的一些詞形還原和制止方法(我試過波特詞形還原,它的工作) 我試圖通過@Chthonic項目在這裏NLTK words lemmatizing描述使用詞形還原與WORDNET。但是它指向的源代碼(請參見http://nltk.org/_modules/nltk/app/wordnet_app.html)需要nltk的compat模塊。 fro

    2熱度

    2回答

    我有一個小模塊,獲取單詞及其複數形式的引理。然後它搜索句子,尋找包含兩個單詞(單數或複數)的句子,按任意順序排列。我有它的工作,但我想知道是否有更優雅的方式來建立這個表達。謝謝! 注:Python2 words = ((cell,), (wolf,wolves)) string1 = "(?:"+"|".join(words[0])+")" string2 = "(?:"+"|".join(w

    6熱度

    1回答

    我希望使用GermaNet進行詞形(對應於WordNet中的getLemma()),列表(實際上是DTM條款 - 用於增強文本分類性能)。但是,我找不到任何提示,或GermaNet的R軟件包。是否有可能仍然在R中使用它?

    4熱度

    1回答

    我正在嘗試對NLTK單詞進行lemmatization。 我現在可以找到的是,我可以使用stem包獲得一些結果,如將「汽車」轉換爲「汽車」和「女性」到「女性」,但是我不能對帶有詞綴的單詞進行詞綴化「確認」。 在「確認」上使用WordNetLemmatizer()時,它返回「確認」並使用.PorterStemmer(),它返回「確認」而不是「確認」。 誰能告訴我如何消除單詞的詞綴? 說,當輸入爲「確

    10熱度

    2回答

    我通過布朗語料庫上的NLTK使用Wordnet Lemmatizer(以確定它中的名詞是以更多的單數形式還是其複數形式使用)。 即from nltk.stem.wordnet import WordNetLemmatizer l = WordnetLemmatizer() 我注意到,甚至低於例如一個最簡單的查詢需要相當長的時間(至少第二或兩個)。 l("cats") 據推測,這是因爲網絡連接必須要

    2熱度

    1回答

    我正在使用python,NLTK和WordNetLemmatizer進行lemmatizer。 這裏是一個隨機的文本輸出什麼,我期待 from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet lem = WordNetLemmatizer() lem.lemmatize('worse', pos=wordn