lemmatization

1熱度

2回答

我想問問你是否知道任何開源java實現的lemmatizer。或者如果不是開源的，至少任何java實現的lemmatizer可以使用，而無需支付許可證。

3熱度

2回答

有沒有人知道如何解決TreeTagger這個文件讀取錯誤，這是一個常用的自然語言處理工具，用於POS標記，引理和塊句子？ [email protected]:~/treetagger$ echo 'Hello world!' | cmd/tree-tagger-english reading parameters ... ERROR: Can't open for reading:

39熱度

5回答

wordnet lemmatization和pos標籤在python

我想在python中使用wordnet lemmatizer，我已經瞭解到默認的pos標籤是NOUN，並且它不會輸出動詞的正確引理，除非pos標籤被顯式指定爲動詞。我的問題是什麼是最好的鏡頭，以準確地執行上述的lemmaization？我做了pos標記使用nltk.pos_tag，我迷失在將樹庫pos標籤集成到wordnet兼容pos標籤。請幫忙 from nltk.stem.wordnet

17熱度

2回答

Lemmatize法文文本

我有一些法文文本，需要在某些方面進行處理。對於這一點，我需要：首先，令牌化文成字然後lemmatize那些話，以避免處理同根不止一次據我所看到的， NLTK中的wordnet lemmatizer只適用於英語。當我給它「voudrais」等等時，我想要一些可以返回「vouloir」的東西。由於撇號，我也無法正確標記。任何指針將不勝感激。 :)

0熱度

1回答

如何使用Wordnet在R中進行詞式化？

我想在R中使用Wordnet的getLemma函數推理語料庫，但我不確定如何使用它。下面是使用R中共發現包詞形還原給定的文檔.. filter <- getTermFilter("StartsWithFilter", "car", TRUE) terms <- getIndexTerms("NOUN", 5, filter) sapply(terms, getLemma) 我的問題是我有

0熱度

4回答

有沒有一個開源的自學習stemmer？

我需要實現某種stemmer/lemmatizer。我有一些不同形式的詞（幾千）。它不是一個形態詞典，只是它的一小部分。自動從文件中學習stemmer是不是一個好主意？有沒有可以使用的開源實現？

1熱度

1回答

WORDNET Lemmatizer對於R

我想使用wordnet lemmatizer到lemmatize詞語a > a<-c("He saw a see-saw on a sea shore", "she is feeling cold") > a [1] "He saw a see-saw on a sea shore" "she is feeling cold" 我轉換a成語料庫和做預處理步驟（例如停用詞去除，詞形還原等）

1熱度

2回答

用於爲詞語詞化和類似任務創建自己的規則的工具

我正在進行大量的自然語言處理，但有點不尋常的要求。通常我得到的任務類似於詞形化 - 給定一個單詞（或只是一段文字），我需要找到一些模式並以某種方式轉換單詞。例如，我可能需要糾正拼寫錯誤，例如，給定的詞「eatin」，我需要將它轉化爲「吃」。或者我可能需要將單詞「ahahaha」，「ahahahaha」等轉換爲「ahaha」等。因此，我正在尋找一些通用工具，允許爲這種情況定義轉換規則。規則可能看起

2熱度

1回答

避免匹配具有不同含義的流行詞的詞幹

我目前使用PorterStemmer來標識派生詞。但是，我面臨的問題不是意思相同，而是具有相同的含義。例如： Market和Marketing Wine和Winning 等。具有不同的含義，但PorterStemmer它們標識爲是相同的。哪些開放工具能夠克服這些問題？有角落的字典？更先進的詞幹？最好是可以通過PHP輕鬆訪問的東西。

2熱度

1回答

整合詞形化到獅身人面像

我有一個MySQL數據庫，裏面有幾十萬文本文檔，我需要在這些文本文件上執行搜索。我決定使用Sphinx來實現搜索功能。不過，我需要用戶能夠找到搜索詞的所有不同形式。我寫了一個python的lemmatizer，能夠產生相當準確的結果，我的問題是：如何將它與Sphinx集成？幫助大大appriciated。編輯：由於目前還沒有答案，我想補充一點，比如「這真的很難」或「它無法完成」的評論也將被評價