我需要在葡萄牙語字符串上執行詞幹。要做到這一點,我使用nltk.word_tokenize()函數a來標記字符串,然後逐個詞幹每個詞。之後,我重建了字符串。它正在工作,但表現不佳。我怎樣才能讓它更快?字符串長度大約是200萬字。 tokenAux=""
tokens = nltk.word_tokenize(portugueseString)
for token in tok
是否有可能通過azure搜索API獲取特定查詢的所有令牌,而無需鏈接實際的數據源?我想要對用戶輸入的查詢執行如詞幹,刪除停用詞等操作,然後將其傳遞給SharePoint以獲取搜索結果。 例如,如果「跑」是搜索查詢,發送到SharePoint轉換後的查詢將包括「跑」,「跑」,「跑」等。我傾向於實現像什麼演示了here 從我瀏覽過的文檔中可以看出,微軟英文分析器就是這樣做的。但是我使用的REST AP
我是新來的Python文本處理,我試圖阻止詞在文本文件中,有大約5000行。 我寫了下面的腳本 from nltk.corpus import stopwords # Import the stop word list
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer('english')
d
詞幹的話有一個列表「L」具有鮮明的話是這樣的: 'gone',
'done',
'crawled',
'laughed',
'cried'
我嘗試使用這份清單上只是方式而產生: from stemming.porter2 import stem
l = [[stem(word) for word in sentence.split(' ')] for sentence in l]