lemmatization

    2熱度

    1回答

    當我打開verb.exc,我可以看到 saw see 雖然我用的詞形還原代碼 >>>print lmtzr.lemmatize('saw', 'v') saw 這怎麼可能發生?我在修改wordNet時有誤解嗎?

    0熱度

    1回答

    我有兩個文件用tab分隔。一個包含引理和詞幹,另一個包含你需要形成的語法形式。 文件(引理和莖): Lemma Stem Pos ablakzár ablakz noun adminisztrátorlány adminisztrátorl noun ... .... 文件(後綴): suffix [r]as [r][r]er ... ..... 有章可循,輸出: Lemm

    2熱度

    1回答

    我在R中使用了wordnet庫並且能夠獲得語料庫的引理,下面是我已經使用的代碼。 library(tm) doc1 <- "Stray cats are running all over the place. I see 10 a day!" doc2 <- "Cats are killers. They kill billions of animals a year." doc3 <-

    2熱度

    1回答

    我在基於lucene的搜索中搜索一個詞,我想在java中將字符串'eating','eats'轉換爲'eat'。我搜索並找到了詞形解析的解決方案,但我遇到的所有英文lemmatizer工具都使用wordlist或字典查找。有沒有任何lemmatizer避免字典查找和高效率,可能是一個基於規則的lemmatizer。是的,我不是在尋找「幹部」。或者是否有任何方法(不重要的準備使用庫,任何算法,方法等

    3熱度

    1回答

    我構建了一個Plaintext-Corpus,下一步是將所有文本進行解讀。我正在使用WordNetLemmatizer,並且需要爲每個令牌使用pos_tag以便不會出現例如愛 - >引理=愛與愛 - >引理=愛... 默認WordNetLemmatizer-POS-標籤爲n(=名詞)我想,但我怎麼能使用pos_tag?我認爲預期的WordNetLemmatizer-POS-Tag與我得到的pos_

    -2熱度

    1回答

    我想通過使用Java API(沒有由Stanford,Apache OpenNLP提供的)構建一個tokenizer。 我已經能夠通過使用正則表達式和Java模式/匹配器分離的話: "[a-zA-Z]+". 我現在想找到這個詞的引理。 由於授權問題,我不想使用StanfordNPP。 下一步是什麼? 我想我需要一本字典作爲參考/比較的模型。 而...? 有沒有人在那裏做過?試圖用Java構建一

    3熱度

    2回答

    所以我有一個文本文件中的單詞列表。我想對它們進行詞形化,以消除具有相同含義但處於不同時態的詞。像嘗試,試圖等等。當我這樣做,我不斷收到類似類型錯誤的錯誤:unhashable類型:「名單」 results=[] with open('/Users/xyz/Documents/something5.txt', 'r') as f: for line in f: r

    1熱度

    1回答

    我希望在保存爲用於Mallet模型的InputDirectory中的單個文件的語料庫上應用使用porter算法的詞根分析。有人可以幫助它如何執行?

    0熱度

    1回答

    有誰知道如何使用standford nlp庫進行詞形變化。它提供了一個maven框架樣式。但是,我只是想在普通圖書館中使用。我已經導入了nlp庫。但是,它給了我一個ClassNotFoundException。 java.lang.ClassNotFoundException: org.slf4j.LoggerFactory 想知道這個lemmatizer需要添加最少的庫嗎?

    0熱度

    1回答

    我正在使用scala編寫腳本,以便使用來自this鏈接的wordnet解碼器來解譯一些文本。 API說lemmatizer對象可以被創建new wordNetLemmatizer(wordnet dir) 如何傳遞字淨DIR的該輸入流作爲參數的上方。 This是我的參考。 任何幫助將不勝感激。