0
我喜歡爲非英語語言創建停用詞列表。哪些指標更適合創建停用詞列表:只有整個文檔集合或tf-idf指標的詞頻?如何創建我自己的停用詞列表?
我喜歡爲非英語語言創建停用詞列表。哪些指標更適合創建停用詞列表:只有整個文檔集合或tf-idf指標的詞頻?如何創建我自己的停用詞列表?
均可以使用這樣的:
my.list <- unlist(read.table("C:/Users/blabla/Desktop/files/yourstopword.txt",
stringsAsFactors=FALSE))
my.stops <- c(my.list)
mycorpus <- tm_map(myCorpus, removeWords, my.stops)
你能告訴更多關於什麼是你創造?我找不到任何信息你正在使用什麼程序,你想達到什麼... 請更具體一點。 – Raptor
我喜歡爲用馬其頓語編寫的文檔進行文檔聚類。我正在使用Weka工具包。 – vikifor