stemming

4熱度

3回答

我需要在葡萄牙語字符串上執行詞幹。要做到這一點，我使用nltk.word_tokenize（）函數a來標記字符串，然後逐個詞幹每個詞。之後，我重建了字符串。它正在工作，但表現不佳。我怎樣才能讓它更快？字符串長度大約是200萬字。 tokenAux="" tokens = nltk.word_tokenize(portugueseString) for token in tok

3熱度

1回答

引用意大利句子進行頻率計數

我想解釋一些意大利語文本，以便對詞彙化內容的輸出進行一些頻率計數和進一步調查。我比詞幹更喜歡引語，因爲我可以從句子中的上下文中提取詞義（例如區分動詞和名詞）並獲得語言中存在的詞，而不是那些詞的根通常沒有意義。我發現pattern（pip2 install pattern）這個庫調用應以執行意大利語的詞形還原補充nltk，但我不知道下面的做法是正確的，因爲每個字本身lemmatized，不一個句

1熱度

1回答

防止詞幹的單詞在PostgreSQL的全文檢索，從第

基本上，我希望能夠得到一個精確匹配（包括包括hashtag）進行查詢是這樣的： =#SELECT to_tsvector('english', '#adoption'); to_tsvector ------------- 'adopt':1 相反，我想的單詞開始與＃，看到： =#SELECT to_tsvector('english', '#adoption'); to_tsvect

0熱度

1回答

德語中的Python情感分析NLTK

我最近開始研究德語文本中的情感分析項目，並計劃使用詞法分析器來改進結果。 NLTK附帶德國雪球乾燥器，我已經試過使用它，但我不確定結果。也許它應該是這樣，但作爲一個計算機科學家而不是語言學家，我有一個問題與屈曲動詞形式源於不同的詞幹。取「suchen」（搜索）這個詞，它被認爲是第一人稱單數的「such」，而第三人稱單數是「sucht」。我知道也有詞形化，但據我所知，沒有工作的德語lemmati

0熱度

1回答

我們如何使用任何詞幹算法在C＃中執行反向詞幹？

是否有任何算法執行任何Stemmers算法的逆向算法。也就是說，假設詞幹「要求」，如何找到詞幹「要求」的所有單詞？總是我們發現相同單詞的變體，例如要求，要求，要求，要求。所有人都有「共同需要」。如果我們可以結合一個特徵來識別所有詞幹「需要」的話，那將是非常好的。我們試圖詞幹的算法，這使得結果是這樣的：例外 - 除了沒有 - 諾斯防止 - 防止臨牀 - 臨牀披露， - 披露收集， -

-1熱度

1回答

可以使用Azure搜索服務生成所有查詢令牌嗎？

是否有可能通過azure搜索API獲取特定查詢的所有令牌，而無需鏈接實際的數據源？我想要對用戶輸入的查詢執行如詞幹，刪除停用詞等操作，然後將其傳遞給SharePoint以獲取搜索結果。例如，如果「跑」是搜索查詢，發送到SharePoint轉換後的查詢將包括「跑」，「跑」，「跑」等。我傾向於實現像什麼演示了here 從我瀏覽過的文檔中可以看出，微軟英文分析器就是這樣做的。但是我使用的REST AP

1熱度

1回答

詞幹與NLTK（python）

我是新來的Python文本處理，我試圖阻止詞在文本文件中，有大約5000行。我寫了下面的腳本 from nltk.corpus import stopwords # Import the stop word list from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer('english') d

0熱度

1回答

在Python列表

詞幹的話有一個列表「L」具有鮮明的話是這樣的： 'gone', 'done', 'crawled', 'laughed', 'cried' 我嘗試使用這份清單上只是方式而產生： from stemming.porter2 import stem l = [[stem(word) for word in sentence.split(' ')] for sentence in l]

1熱度

1回答

SnowballStemmer for Russian單詞列表

我知道如何在單個單詞上執行SnowballStemmer（在我的情況下，在俄語單詞上）。在做下一件事： from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 我怎麼可以做以下，如果我有一個像[「Василий」

0熱度

1回答

在彈性搜索中取代原始字符串

我使用以下設置來創建ES索引。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"] }