lemmatization

    0熱度

    1回答

    我嘗試詞形還原如下: from nltk.stem.wordnet import WordNetLemmatizer wnl = WordNetLemmatizer() wnl.lemmatize("dogs") ,並不斷收到「BadZipFile:文件不是一個zip文件」的錯誤。在詞形化的背景下,我無法找到任何東西。有人可以幫忙嗎?

    0熱度

    1回答

    我嘗試學習scala和特定文本minning(詞形化,TF-IDF矩陣和LSA)。 我有一些文本我想要lemmatize並作出分類(LSA)。我在cloudera上使用spark。 所以我用了stanfordCore NLP fonction: def plainTextToLemmas(text: String, stopWords: Set[String]): Seq[String] = {

    0熱度

    1回答

    我試圖從古蘭經聖書中解讀一些詞,但有些詞不能詞法化。 這裏是我的一句話: sentence = "Then bring ten surahs like it that have been invented and call upon for assistance whomever you can besides Allah if you should be truthful" 那句話是我的tx

    1熱度

    1回答

    我得到以下錯誤。 if form in exceptions: TypeError: unhashable type: 'list' 以下是我的代碼。 from nltk.tokenize import word_tokenize from nltk.stem.wordnet import WordNetLemmatizer sentence = 'missed you' w_toke

    0熱度

    1回答

    我試圖在文本中詞彙單詞化。例如像「酸菜」應該轉向「泡菜」,「跑」到「運行」,「葡萄乾」到「葡萄乾」等 我使用NLTK的WordNet Lemmatizer如下: from nltk.stem import WordNetLemmatizer >>> >>> lem = WordNetLemmatizer() >>> print(lem.lemmatize("cats")) cat >>>

    3熱度

    1回答

    我想解釋一些意大利語文本,以便對詞彙化內容的輸出進行一些頻率計數和進一步調查。 我比詞幹更喜歡引語,因爲我可以從句子中的上下文中提取詞義(例如區分動詞和名詞)並獲得語言中存在的詞,而不是那些詞的根通常沒有意義。 我發現pattern(pip2 install pattern)這個庫調用應以執行意大利語的詞形還原補充nltk,但我不知道下面的做法是正確的,因爲每個字本身lemmatized,不一個句

    1熱度

    1回答

    我有一個包含句子的列表。 list = ["I'm hoping to go jogging", "I haven't eaten in a while","where is everybody going"] 我想lemmatize上面的列表,並與引理的替代原話。 我該如何使用spacy? 我知道我可以在一個循環中打印引理,但我想要的是用詞性化替換原始單詞。

    -4熱度

    1回答

    用現有單詞替換過去的單詞時,應該使用什麼命令? 了,得到了,(獲得) - >得到 去,去(去) - >去 思想 - >認爲 購買 - >購買 我想用這種方法用當前單詞替換它。 我將不勝感激您對我的代碼的建議。 ​​ 我知道下面的命令會把過去的動詞變成現在的形式。但是,在我輸入這個命令後,我看了看它。還有一個過去的話。 crudeCorp <- tm_map(crudeCorp, stemDocum

    2熱度

    1回答

    PostgreSQL的to_tsvector函數是非常有用的,但對於我的數據集,它比我想要的要多一點。 例如: select * from to_tsvector('english', 'This is my favourite game. I enjoy everything about it.'); 生產:'enjoy':7 'everyth':8 'favourit':4 'game'

    1熱度

    2回答

    我正在嘗試使用lemmatizer預處理一個字符串,然後刪除標點符號和數字。我正在使用下面的代碼來執行此操作。我沒有收到任何錯誤,但文本沒有被適當地預處理。只有停用詞被刪除,但詞彙化不起作用,標點和數字也保留。 from nltk.stem import WordNetLemmatizer import string import nltk tweets = "This is a beaut