我正在使用tm
-package進行R中的一些文本挖掘。一切都很順利。但是,在阻塞之後會出現一個問題(http://en.wikipedia.org/wiki/Stemming)。顯然,有一些詞彙具有相同的詞幹,但重要的是它們不是「一起」(因爲這些詞語意味着不同的東西)。使用tm-package進行文本挖掘 - 詞語詞幹
例如,請參閱下面的4個文本。在這裏你不能使用「講師」或「講座」(「協會」和「同伴」)互換。但是,這是在步驟4中完成的。
是否有任何優雅的解決方案如何對某些案例/單詞進行手動實現(例如,「講師」和「講座」保留爲兩個不同的東西)?
texts <- c("i am member of the XYZ association",
"apply for our open associate position",
"xyz memorial lecture takes place on wednesday",
"vote for the most popular lecturer")
# Step 1: Create corpus
corpus <- Corpus(DataframeSource(data.frame(texts)))
# Step 2: Keep a copy of corpus to use later as a dictionary for stem completion
corpus.copy <- corpus
# Step 3: Stem words in the corpus
corpus.temp <- tm_map(corpus, stemDocument, language = "english")
inspect(corpus.temp)
# Step 4: Complete the stems to their original form
corpus.final <- tm_map(corpus.temp, stemCompletion, dictionary = corpus.copy)
inspect(corpus.final)
這是干擾點。你這樣做是爲了獲取根詞。如果你想保留差異,那就不要干涉。 –
我知道。但是,在某些情況下,是否有一種優雅的方式來改變它? – majom