如何創建我自己的停用詞列表？

我喜歡爲非英語語言創建停用詞列表。哪些指標更適合創建停用詞列表：只有整個文檔集合或tf-idf指標的詞頻？如何創建我自己的停用詞列表？

2013-10-06 vikifor

你能告訴更多關於什麼是你創造？我找不到任何信息你正在使用什麼程序，你想達到什麼... 請更具體一點。 – Raptor

我喜歡爲用馬其頓語編寫的文檔進行文檔聚類。我正在使用Weka工具包。 – vikifor

均可以使用這樣的：

my.list <- unlist(read.table("C:/Users/blabla/Desktop/files/yourstopword.txt", 
          stringsAsFactors=FALSE)) 
my.stops <- c(my.list) 
mycorpus <- tm_map(myCorpus, removeWords, my.stops)

來源

2015-09-17 15:39:47

如何創建我自己的停用詞列表？

回答

相關問題