snowball

    0熱度

    1回答

    下面是我如何幹掉我的語料庫和我的文檔。然而,例如「工作」和「工作」顯示了大量的時間,而且在我的分析中,這些對於所有意圖和目的來說顯然是相同的。有沒有一個包或一些代碼片段去除「-ed」結尾?謝謝! library(tm) docs<-Corpus(DirSource(cname)) summary(docs) library(SnowballC) docs <- tm_map(docs,

    0熱度

    1回答

    我最近開始研究德語文本中的情感分析項目,並計劃使用詞法分析器來改進結果。 NLTK附帶德國雪球乾燥器,我已經試過使用它,但我不確定結果。也許它應該是這樣,但作爲一個計算機科學家而不是語言學家,我有一個問題與屈曲動詞形式源於不同的詞幹。 取「suchen」(搜索)這個詞,它被認爲是第一人稱單數的「such」,而第三人稱單數是「sucht」。 我知道也有詞形化,但據我所知,沒有工作的德語lemmati

    2熱度

    1回答

    我有一個'check_text.txt'文件,其中包含「說說make製造」。我想對它進行干擾以獲得​​「說出口說make make」。我試過在tm包中使用stemDocument,如下所示,但是隻能得到「說出來說說make make」。有沒有一種方法可以對過去式單詞進行詞幹化處理?在真實世界的自然語言處理中是否有必要這樣做?謝謝! filename = 'check_text.txt' con

    0熱度

    2回答

    我正在使用德語語言分析程序標記某些內容。我知道它基本上是一個「小寫」,「german_stop」,「german_keywords」,「german_normalization」,「german_stemmer」的宏過濾器。 我的問題與規範化過濾器有關。這裏是過濾器的Elasticsearch Documentation和Lucene Implementation。問題是ae ue和oe被視爲德文

    1熱度

    1回答

    我知道如何在單個單詞上執行SnowballStemmer(在我的情況下,在俄語單詞上)。在做下一件事: from nltk.stem.snowball import SnowballStemmer stemmer = SnowballStemmer("russian") stemmer.stem("Василий") 'Васил' 我怎麼可以做以下,如果我有一個像[「Василий」

    2熱度

    1回答

    我想了解雪球干擾算法。 HW90有類似的問題與例子,但不是我的。使用兩個區域R1和R2的algorithmus被definied如下: R1是以下一個元音的第一個非元音之後的區域中,或者是 在字的末尾的空區域,如果有沒有這樣的非元音。 R2是在R1之後的第一個非元音之後的區域,或者 是如果沒有這樣的非元音 這個詞末尾的空區域。 http://snowball.tartarus.org/texts/

    3熱度

    3回答

    我安裝了這個詞幹的阿拉伯語Here。我用這個代碼運行它: from snowballstemmer import stemmer ar_stemmer = stemmer("arabic") ar_stemmer.stemWord(u"فسميتموها") 當我運行它,我得到這個: Traceback (most recent call last): File "C:\Users\CL

    0熱度

    1回答

    我試圖在R約40000行的數據集上運行stemmer函數(通過data.table包上傳),但它需要永久運行。我的代碼如下所示: data[, Description := map(Description, function(k) stemmer(k))] 如果手動停止的過程中,它顯示超過50級的警告爲: Image Link 是否有更快的運行它的替代品。我的電腦有8Gb內存。

    2熱度

    1回答

    如何使用雪球定義列表字符串? 我試圖做這樣的: define patterns ( '{m}{f}{i}{l}' or '{f}{a}{i}{l}' or ....... ) 如何獲取列表的長度?如何處理每一種模式?

    1熱度

    1回答

    我是R的新手,我試圖用csv文件創建術語文檔矩陣。但結果表明,一些單詞最後缺少字母「e」。我怎樣才能讓術語文檔矩陣顯示完整的單詞?如果您在看到一個看起來不正確的部分時也可以告訴我,那將會很棒。謝謝! library(tm) posts<-read.csv("/abcd.csv",header=TRUE) require(tm) posts<-Corpus(VectorSource(posts