stemming

    4熱度

    3回答

    我需要在葡萄牙語字符串上執行詞幹。要做到這一點,我使用nltk.word_tokenize()函數a來標記字符串,然後逐個詞幹每個詞。之後,我重建了字符串。它正在工作,但表現不佳。我怎樣才能讓它更快?字符串長度大約是200萬字。 tokenAux="" tokens = nltk.word_tokenize(portugueseString) for token in tok

    3熱度

    1回答

    我想解釋一些意大利語文本,以便對詞彙化內容的輸出進行一些頻率計數和進一步調查。 我比詞幹更喜歡引語,因爲我可以從句子中的上下文中提取詞義(例如區分動詞和名詞)並獲得語言中存在的詞,而不是那些詞的根通常沒有意義。 我發現pattern(pip2 install pattern)這個庫調用應以執行意大利語的詞形還原補充nltk,但我不知道下面的做法是正確的,因爲每個字本身lemmatized,不一個句

    1熱度

    1回答

    基本上,我希望能夠得到一個精確匹配(包括包括hashtag)進行查詢是這樣的: =#SELECT to_tsvector('english', '#adoption'); to_tsvector ------------- 'adopt':1 相反,我想的單詞開始與#,看到: =#SELECT to_tsvector('english', '#adoption'); to_tsvect

    0熱度

    1回答

    我最近開始研究德語文本中的情感分析項目,並計劃使用詞法分析器來改進結果。 NLTK附帶德國雪球乾燥器,我已經試過使用它,但我不確定結果。也許它應該是這樣,但作爲一個計算機科學家而不是語言學家,我有一個問題與屈曲動詞形式源於不同的詞幹。 取「suchen」(搜索)這個詞,它被認爲是第一人稱單數的「such」,而第三人稱單數是「sucht」。 我知道也有詞形化,但據我所知,沒有工作的德語lemmati

    0熱度

    1回答

    是否有任何算法執行任何Stemmers算法的逆向算法。也就是說,假設詞幹「要求」,如何找到詞幹「要求」的所有單詞? 總是我們發現相同單詞的變體,例如要求,要求,要求,要求。所有人都有「共同需要」。如果我們可以結合一個特徵來識別所有詞幹「需要」的話,那將是非常好的。 我們試圖詞幹的算法,這使得結果是這樣的: 例外 - 除了 沒有 - 諾斯 防止 - 防止 臨牀 - 臨牀 披露, - 披露 收集, -

    -1熱度

    1回答

    是否有可能通過azure搜索API獲取特定查詢的所有令牌,而無需鏈接實際的數據源?我想要對用戶輸入的查詢執行如詞幹,刪除停用詞等操作,然後將其傳遞給SharePoint以獲取搜索結果。 例如,如果「跑」是搜索查詢,發送到SharePoint轉換後的查詢將包括「跑」,「跑」,「跑」等。我傾向於實現像什麼演示了here 從我瀏覽過的文檔中可以看出,微軟英文分析器就是這樣做的。但是我使用的REST AP

    1熱度

    1回答

    我是新來的Python文本處理,我試圖阻止詞在文本文件中,有大約5000行。 我寫了下面的腳本 from nltk.corpus import stopwords # Import the stop word list from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer('english') d

    0熱度

    1回答

    詞幹的話有一個列表「L」具有鮮明的話是這樣的: 'gone', 'done', 'crawled', 'laughed', 'cried' 我嘗試使用這份清單上只是方式而產生: from stemming.porter2 import stem l = [[stem(word) for word in sentence.split(' ')] for sentence in l]

    1熱度

    1回答

    我知道如何在單個單詞上執行SnowballStemmer(在我的情況下,在俄語單詞上)。在做下一件事: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 我怎麼可以做以下,如果我有一個像[「Василий」

    0熱度

    1回答

    我使用以下設置來創建ES索引。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"] }