2013-10-06 24 views
0

我喜歡爲非英語語言創建停用詞列表。哪些指標更適合創建停用詞列表:只有整個文檔集合或tf-idf指標的詞頻?如何創建我自己的停用詞列表?

+0

你能告訴更多關於什麼是你創造?我找不到任何信息你正在使用什麼程序,你想達到什麼... 請更具體一點。 – Raptor

+0

我喜歡爲用馬其頓語編寫的文檔進行文檔聚類。我正在使用Weka工具包。 – vikifor

回答

0

均可以使用這樣的:

my.list <- unlist(read.table("C:/Users/blabla/Desktop/files/yourstopword.txt", 
          stringsAsFactors=FALSE)) 
my.stops <- c(my.list) 
mycorpus <- tm_map(myCorpus, removeWords, my.stops)