stemming

    0熱度

    1回答

    我有這個結構的數據幀: #Load lexicon Lexicon_DF <- read.csv("LexiconFrancais.csv",header=F, sep=";") 的「LexiconFrancais.csv」的結構是這樣的: French Translation (Google Translate);Positive;Negative un dos;0;0 abaque;

    0熱度

    1回答

    是否可以使用不基於英語字母表的語言(如烏爾都語,泰米爾語等)來實現Word2Vec模型?如果有的話可以有人建議我一個途徑。

    -1熱度

    1回答

    我有我使用垃圾郵件分類代碼和它的作品很好,但每次我嘗試幹/ lemmatize字我得到這個錯誤: 文件「 /Users/Ramit/Desktop/Bayes1/src/filter.py 「第16行,在trim_word 字= ps.stem(字) 文件」 /Library/Python/2.7/site-packages/nltk/stem /porter.py「,行664,在詞幹 stem

    2熱度

    1回答

    我正在處理文本挖掘項目並嘗試清除文本 - 單/複數形式的單詞,不同時態的動詞和拼寫錯誤的單詞。我的示例如下所示: test <- c("apple","apples","wife","wives","win","won","winning","winner","orange","oranges","orenge") 我試圖在SnowballC軟件包中使用wordStem函數。然而,結果是錯誤的

    -1熱度

    1回答

    如何在R中詞幹完成後完成單詞? x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 舉例說明目的,因爲實際的文本語料庫要大得多。 我以前搜索過examples,它指向創建一組

    -2熱度

    1回答

    我試圖在R中使用stri_replace_all_fixed函數來幹〜4000個文檔。但是,它非常慢,因爲我的詞幹字典包含約。 300k字。我這樣做是因爲文件是丹麥文,因此Porter Stemmer Algortihm沒有用(這太過分了)。 我已經發布了下面的代碼。有沒有人知道這樣做的替代方案? 邏輯:查看每個文檔中的每個單詞 - >如果word =來自voc-table的單詞,則用tran-w

    2熱度

    1回答

    我試圖從包含文本的文本文件中獲取關鍵字,並且我首先填充文本。下面的代碼有效,但由於某種原因,它會在關鍵字列表前生成字母「u」。例如。這就是我得到: [(u'keyword1', 5), (u'keyword2', 4)] 而且我不知道在哪裏的「U」從何而來。 這裏是代碼(導入包後): stemmer = SnowballStemmer("english") rake_object = rake.

    0熱度

    1回答

    我想創建一個新的熊貓列,方法是在另一列中的單詞列表中運行單詞詞幹功能。我可以通過使用apply和lambda來標記一個字符串,但我無法弄清楚如何將這個外推到在單詞列表上運行的情況。 test = {'Statement' : ['congratulations on the future','call the mechanic','more text'], 'Other' : [2,3,4]}

    1熱度

    1回答

    我正在尋找使用Lucene 6.5來干擾英語單詞。我見過很多使用Lucene實現這個功能的例子。然而,我迄今看到的例子似乎是使用舊版本的Lucene,並且使用Lucene 6複製相同的代碼並不可能。 一個恰當的例子是this one。建議並接受解決方案使用org.apache.lucene.analysis.PorterStemmer這似乎並不在同一個封裝中的Lucene 6 更新:我發現,對於P

    0熱度

    1回答

    我剛剛安裝了openNLP並測試了一些詞幹。那些干擾結果對我來說很可疑。 people => peopl excellent => excel beautiful => beauti 我不知道這些都是OpenNLP的原始輸出,或者我的安裝具有不能產生正確的結果有些問題。 有人可以幫我驗證這些嗎?真的非常感謝。