lemmatization

    1熱度

    2回答

    我想問問你是否知道任何開源java實現的lemmatizer。 或者如果不是開源的,至少任何java實現的lemmatizer可以使用,而無需支付許可證。

    3熱度

    2回答

    有沒有人知道如何解決TreeTagger這個文件讀取錯誤,這是一個常用的自然語言處理工具,用於POS標記,引理和塊句子? [email protected]:~/treetagger$ echo 'Hello world!' | cmd/tree-tagger-english reading parameters ... ERROR: Can't open for reading:

    39熱度

    5回答

    我想在python中使用wordnet lemmatizer,我已經瞭解到默認的pos標籤是NOUN,並且它不會輸出動詞的正確引理,除非pos標籤被顯式指定爲動詞。 我的問題是什麼是最好的鏡頭,以準確地執行上述的lemmaization? 我做了pos標記使用nltk.pos_tag,我迷失在將樹庫pos標籤集成到wordnet兼容pos標籤。請幫忙 from nltk.stem.wordnet

    17熱度

    2回答

    我有一些法文文本,需要在某些方面進行處理。對於這一點,我需要: 首先,令牌化文成字 然後lemmatize那些話,以避免處理同根不止一次 據我所看到的, NLTK中的wordnet lemmatizer只適用於英語。當我給它「voudrais」等等時,我想要一些可以返回「vouloir」的東西。由於撇號,我也無法正確標記。任何指針將不勝感激。 :)

    0熱度

    1回答

    我想在R中使用Wordnet的getLemma函數推理語料庫,但我不確定如何使用它。 下面是使用R中共發現包詞形還原給定的文檔.. filter <- getTermFilter("StartsWithFilter", "car", TRUE) terms <- getIndexTerms("NOUN", 5, filter) sapply(terms, getLemma) 我的問題是我有

    0熱度

    4回答

    我需要實現某種stemmer/lemmatizer。我有一些不同形式的詞(幾千)。它不是一個形態詞典,只是它的一小部分。自動從文件中學習stemmer是不是一個好主意?有沒有可以使用的開源實現?

    1熱度

    1回答

    我想使用wordnet lemmatizer到lemmatize詞語a > a<-c("He saw a see-saw on a sea shore", "she is feeling cold") > a [1] "He saw a see-saw on a sea shore" "she is feeling cold" 我轉換a成語料庫和做預處理步驟(例如停用詞去除,詞形還原等)

    1熱度

    2回答

    我正在進行大量的自然語言處理,但有點不尋常的要求。通常我得到的任務類似於詞形化 - 給定一個單詞(或只是一段文字),我需要找到一些模式並以某種方式轉換單詞。例如,我可能需要糾正拼寫錯誤,例如,給定的詞「eatin」,我需要將它轉化爲「吃」。或者我可能需要將單詞「ahahaha」,「ahahahaha」等轉換爲「ahaha」等。 因此,我正在尋找一些通用工具,允許爲這種情況定義轉換規則。規則可能看起

    2熱度

    1回答

    我目前使用PorterStemmer來標識派生詞。但是,我面臨的問題不是意思相同,而是具有相同的含義。例如: Market和Marketing Wine和Winning 等。 具有不同的含義,但PorterStemmer它們標識爲是相同的。 哪些開放工具能夠克服這些問題?有角落的字典?更先進的詞幹? 最好是可以通過PHP輕鬆訪問的東西。

    2熱度

    1回答

    我有一個MySQL數據庫,裏面有幾十萬文本文檔,我需要在這些文本文件上執行搜索。我決定使用Sphinx來實現搜索功能。不過,我需要用戶能夠找到搜索詞的所有不同形式。我寫了一個python的lemmatizer,能夠產生相當準確的結果,我的問題是:如何將它與Sphinx集成? 幫助大大appriciated。 編輯:由於目前還沒有答案,我想補充一點,比如「這真的很難」或「它無法完成」的評論也將被評價