lemmatization

2熱度

1回答

當我打開verb.exc，我可以看到 saw see 雖然我用的詞形還原代碼 >>>print lmtzr.lemmatize('saw', 'v') saw 這怎麼可能發生？我在修改wordNet時有誤解嗎？

0熱度

1回答

我有兩個文件用tab分隔。一個包含引理和詞幹，另一個包含你需要形成的語法形式。文件（引理和莖）： Lemma Stem Pos ablakzár ablakz noun adminisztrátorlány adminisztrátorl noun ... .... 文件（後綴）： suffix [r]as [r][r]er ... ..... 有章可循，輸出： Lemm

2熱度

1回答

如何從R中的wordnet中獲取語料庫中的引理如何替換R

我在R中使用了wordnet庫並且能夠獲得語料庫的引理，下面是我已經使用的代碼。 library(tm) doc1 <- "Stray cats are running all over the place. I see 10 a day!" doc2 <- "Cats are killers. They kill billions of animals a year." doc3 <-

2熱度

1回答

英語Lemmatizer沒有詞典爲JAVA？

我在基於lucene的搜索中搜索一個詞，我想在java中將字符串'eating'，'eats'轉換爲'eat'。我搜索並找到了詞形解析的解決方案，但我遇到的所有英文lemmatizer工具都使用wordlist或字典查找。有沒有任何lemmatizer避免字典查找和高效率，可能是一個基於規則的lemmatizer。是的，我不是在尋找「幹部」。或者是否有任何方法（不重要的準備使用庫，任何算法，方法等

3熱度

1回答

NLTK：lemmatizer和pos_tag

我構建了一個Plaintext-Corpus，下一步是將所有文本進行解讀。我正在使用WordNetLemmatizer，並且需要爲每個令牌使用pos_tag以便不會出現例如愛 - >引理=愛與愛 - >引理=愛... 默認WordNetLemmatizer-POS-標籤爲n（=名詞）我想，但我怎麼能使用pos_tag？我認爲預期的WordNetLemmatizer-POS-Tag與我得到的pos_

-2熱度

1回答

構建Java引理器

我想通過使用Java API（沒有由Stanford，Apache OpenNLP提供的）構建一個tokenizer。我已經能夠通過使用正則表達式和Java模式/匹配器分離的話： "[a-zA-Z]+". 我現在想找到這個詞的引理。由於授權問題，我不想使用StanfordNPP。下一步是什麼？我想我需要一本字典作爲參考/比較的模型。而...？有沒有人在那裏做過？試圖用Java構建一

3熱度

2回答

單詞列表的詞形化

所以我有一個文本文件中的單詞列表。我想對它們進行詞形化，以消除具有相同含義但處於不同時態的詞。像嘗試，試圖等等。當我這樣做，我不斷收到類似類型錯誤的錯誤：unhashable類型：「名單」 results=[] with open('/Users/xyz/Documents/something5.txt', 'r') as f: for line in f: r

1熱度

1回答

如何使用Mallet進行主題建模

我希望在保存爲用於Mallet模型的InputDirectory中的單個文件的語料庫上應用使用porter算法的詞根分析。有人可以幫助它如何執行？

0熱度

1回答

如何在java中使用standford nlp庫？

有誰知道如何使用standford nlp庫進行詞形變化。它提供了一個maven框架樣式。但是，我只是想在普通圖書館中使用。我已經導入了nlp庫。但是，它給了我一個ClassNotFoundException。 java.lang.ClassNotFoundException: org.slf4j.LoggerFactory 想知道這個lemmatizer需要添加最少的庫嗎？

0熱度

1回答

SBT中的因式分解引理

我正在使用scala編寫腳本，以便使用來自this鏈接的wordnet解碼器來解譯一些文本。 API說lemmatizer對象可以被創建new wordNetLemmatizer(wordnet dir) 如何傳遞字淨DIR的該輸入流作爲參數的上方。 This是我的參考。任何幫助將不勝感激。